文章预览
摘要 当今最先进的多模态模型仍然是专有的。 最强大的开放权重模型严重依赖来自专有 VLM 的合成数据以实现良好的性能,有效地将这些封闭模型提炼成开放模型。 因此,社区仍然缺乏关于如何从头开始构建高性能 VLM 的基础知识。 我们提出了 Molmo,一个新的 VLM 家族,在开放性方面处于其类别中的最先进水平。 我们的关键创新是使用基于语音的描述从人类标注者收集的全新、高度详细的图像字幕数据集。 为了支持各种用户交互,我们还引入了用于微调的多样化数据集混合,其中包括野外问答和创新的 2D 指向数据。 我们方法的成功依赖于对模型架构细节的精心选择、经过良好调整的训练管道,最重要的是,我们新收集的数据集的质量,所有这些都将发布。 Molmo 家族中最好的 72B 模型不仅在开放权重和数据模型类别中优于其他模型,而
………………………………