Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型

FightingCV · 公众号 · · 2024-09-30 09:00

文章预览

摘要当今最先进的多模态模型仍然是专有的。最强大的开放权重模型严重依赖来自专有 VLM 的合成数据以实现良好的性能，有效地将这些封闭模型提炼成开放模型。因此，社区仍然缺乏关于如何从头开始构建高性能 VLM 的基础知识。我们提出了 Molmo，一个新的 VLM 家族，在开放性方面处于其类别中的最先进水平。我们的关键创新是使用基于语音的描述从人类标注者收集的全新、高度详细的图像字幕数据集。为了支持各种用户交互，我们还引入了用于微调的多样化数据集混合，其中包括野外问答和创新的 2D 指向数据。我们方法的成功依赖于对模型架构细节的精心选择、经过良好调整的训练管道，最重要的是，我们新收集的数据集的质量，所有这些都将发布。 Molmo 家族中最好的 72B 模型不仅在开放权重和数据模型类别中优于其他模型，而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博