Kimi 多模态图片理解模型 API 发布！

人工智能与算法学习 · 公众号 · · 2025-01-15 14:49

文章预览

来源：Kimi开放平台今天，全新多模态图片理解模型 moonshot-v1-vision-preview 正式发布，本模型完善了 moonshot-v1 模型系列的多模态能力，助力 Kimi 更好地理解世界。注：下文简称为 Vision 模型。模型能力说明图像识别 Vision 模型具备较强的图像识别能力，能够准确识别出图像中的复杂细节和细微的差别，无论是食物还是动物，能够区分出相似但又不相同的对象。下图示例中，我们拼凑了16张相似的人眼较难区分的蓝莓松饼和吉娃娃图片，由 Vision 模型来识别并按顺序标记图片类型，无论是蓝莓松饼还是吉娃娃，我们的模型都能精确地区分和识别。文字识别和理解 Vision 模型具备国内领先的高级图像识别能力，在 OCR 文字识别和图像理解场景中表现优异。比普通的文件扫描和 OCR 识别软件更加准确，例如收据单/快递单等潦草的手写内容都可以准确识别。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量化投资与机器学习 · D.E.Shaw 夺魁！

10 小时前

爱可可-爱生活 · 晚安～ #晚安# -20250119220426

昨天

西藏商务 · 西藏自治区应急指挥部关于终止西藏自治区地震一级应急响应的决定

昨天

爱可可-爱生活 · 人们常说，要追求卓越，创造奇迹。但生活的真相是：一盏始终如一的烛-20250118215123

2 天前

爱可可-爱生活 · 【构建基于生成式 AI 的应用时常见的陷阱，包括不必要地使用 A-20250118154213

2 天前

跟FT学英语 · 内容创作者向人工智能开战丨FT英文原声视频

1 月前