专栏名称: 多知
专注于报道培训教育领域,有意思,有价值,有细节,有深度
今天看啥  ›  专栏  ›  多知

Kimi视觉思考模型 k1:可拍照解题,会给出解答过程

多知  · 公众号  ·  · 2024-12-16 17:10
    

文章预览

多知 12月16日消息, 今天,Kimi 发布视觉思考模型 k1,可以拍照解题,并不仅仅给出答案,还会给出思索答案的全过程。 该模型将于近期正式上线,包括 Android版、iOS版以及网页版。 根据Kimi介绍, k1 模型基于强化学习技术,支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。 在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了全球标杆模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。 Kimi介绍,k1 视觉思考模型,真正意义上实现了端到端的图像理解和思考能力。 模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理。 从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览