这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

Kimi 多模态图片理解模型 API 发布!

人工智能与算法学习  · 公众号  ·  · 2025-01-15 14:49
    

文章预览

来源:Kimi开放平台 今天,全新多模态图片理解模型 moonshot-v1-vision-preview 正式发布,本模型完善了 moonshot-v1 模型系列的多模态能力,助力 Kimi 更好地理解世界。 注:下文简称为 Vision 模型。 模型能力说明 图像识别 Vision 模型具备较强的图像识别能力,能够准确识别出图像中的复杂细节和细微的差别,无论是食物还是动物,能够区分出相似但又不相同的对象。下图示例中,我们拼凑了16张相似的人眼较难区分的蓝莓松饼和吉娃娃图片,由 Vision 模型来识别并按顺序标记图片类型,无论是蓝莓松饼还是吉娃娃,我们的模型都能精确地区分和识别。 文字识别和理解 Vision 模型具备国内领先的高级图像识别能力,在 OCR 文字识别和图像理解场景中表现优异。 比普通的文件扫描和 OCR 识别软件更加准确,例如收据单/快递单等潦草的手写内容都可以准确识别。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览