Kimi发布视觉思考模型k1，会看图做题，还能看图定位你在哪里

硅星GenAI · 公众号 · 科技自媒体 · 2024-12-17 18:32

主要观点总结

文章介绍了大模型厂商在视觉方向的发展，以及Kimi推出的视觉思考模型k1的相关情况。文章提到了k1在数理化领域的表现，以及对标OpenAI o1的情况。同时，文章还提到了AI视觉推理的难题和k1在具体案例中的表现，包括GeoGuessr游戏、拍题求助、识别草书等。最后，文章讨论了AI领域的技术路线转向和Kimi的产品研发策略。

关键观点总结

关键观点1: Kimi推出视觉思考模型k1，具备数理化领域的全面能力，不仅具备k0的数学能力，还能看懂各种图片，进行深度推理。

k1在基础教育各阶段的几何和图形题专项基准能力测试中表现优异，打平或超过了OpenAI的o1模型。

关键观点2: AI的视觉推理是业界难题，存在短板。Kimi视觉思考版在某些案例中表现不错，但仍存在幻觉。

随机测试中，Kimi视觉思考版正确识别了上海石库门的位置，但存在将小红书水印识别为“上海”的幻觉。与其他模型相比，Kimi视觉思考版在某些任务中表现较好。

关键观点3: 大模型技术范式正在变化，基于强化学习技术的新一代模型引入过程奖励机制，形成高质量的思维链CoT。

这种变化使得模型能够挑战更复杂的任务。Kimi的视觉思考模型就是这种技术的典型应用。

关键观点4: Kimi的产品研发策略是集中资源投入到核心功能上，先做好对标OpenAI o1的事情。

Kimi的k0-math和K1强调在教育场景中的数学能力和“识题”能力，这是其重要的基本盘用户。未来，Kimi还将继续解锁更多推理能力。

文章预览

作者｜周一笑邮箱｜ zhouyixiao@pingwest.com 最近，大模型厂商们都在卯足了劲儿往视觉的方向使力，OpenAI上线了Sora，Google向开发者开放Gemini 2.0 Flash的多模态API，还演示了Project Astra在视觉理解等方面的能力。 Kimi也整了个“新活”：视觉思考模型k1。根据介绍，这是一个在数理化领域全面对标OpenAl o1、GPT-4o以及 Claude 3.5 Sonnet的视觉思考模型。一个月前，Kimi推出了数学推理模型k0-math，但它有个小小的遗憾：只认识LaTeX格式的文本，无法处理需要看图的几何题，新的k1视觉思考模型，解锁了包括几何题在内更加全面的数学能力。说得简单点儿，k0-math会算题，k1则更全能，不仅具备k0的数学能力，还能看懂各种图片，能够从图片里一步步推理出答案。在基础教育各阶段的几何和图形题专项基准能力测试中，k1-preview成绩打平或超过了 OpenAI的o1模型。说到视 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博