今天看啥  ›  专栏  ›  硅星GenAI

Kimi发布视觉思考模型k1,会看图做题,还能看图定位你在哪里

硅星GenAI  · 公众号  · 科技自媒体  · 2024-12-17 18:32
    

主要观点总结

文章介绍了大模型厂商在视觉方向的发展,以及Kimi推出的视觉思考模型k1的相关情况。文章提到了k1在数理化领域的表现,以及对标OpenAI o1的情况。同时,文章还提到了AI视觉推理的难题和k1在具体案例中的表现,包括GeoGuessr游戏、拍题求助、识别草书等。最后,文章讨论了AI领域的技术路线转向和Kimi的产品研发策略。

关键观点总结

关键观点1: Kimi推出视觉思考模型k1,具备数理化领域的全面能力,不仅具备k0的数学能力,还能看懂各种图片,进行深度推理。

k1在基础教育各阶段的几何和图形题专项基准能力测试中表现优异,打平或超过了OpenAI的o1模型。

关键观点2: AI的视觉推理是业界难题,存在短板。Kimi视觉思考版在某些案例中表现不错,但仍存在幻觉。

随机测试中,Kimi视觉思考版正确识别了上海石库门的位置,但存在将小红书水印识别为“上海”的幻觉。与其他模型相比,Kimi视觉思考版在某些任务中表现较好。

关键观点3: 大模型技术范式正在变化,基于强化学习技术的新一代模型引入过程奖励机制,形成高质量的思维链CoT。

这种变化使得模型能够挑战更复杂的任务。Kimi的视觉思考模型就是这种技术的典型应用。

关键观点4: Kimi的产品研发策略是集中资源投入到核心功能上,先做好对标OpenAI o1的事情。

Kimi的k0-math和K1强调在教育场景中的数学能力和“识题”能力,这是其重要的基本盘用户。未来,Kimi还将继续解锁更多推理能力。


文章预览

作者 | 周一笑 邮箱 | zhouyixiao@pingwest.com 最近,大模型厂商们都在卯足了劲儿往视觉的方向使力,OpenAI上线了Sora,Google向开发者开放Gemini 2.0 Flash的多模态API,还演示了Project Astra在视觉理解等方面的能力。 Kimi也整了个“新活”:视觉思考模型k1。根据介绍,这是一个在数理化领域全面对标OpenAl o1、GPT-4o以及 Claude 3.5 Sonnet的视觉思考模型。 一个月前,Kimi推出了数学推理模型k0-math,但它有个小小的遗憾:只认识LaTeX格式的文本,无法处理需要看图的几何题,新的k1视觉思考模型,解锁了包括几何题在内更加全面的数学能力。 说得简单点儿,k0-math会算题,k1则更全能,不仅具备k0的数学能力,还能看懂各种图片,能够从图片里一步步推理出答案。在基础教育各阶段的几何和图形题专项基准能力测试中,k1-preview成绩打平或超过了 OpenAI的o1模型。 说到视 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览