专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型

FightingCV  · 公众号  ·  · 2024-09-30 09:00

文章预览

摘要 当今最先进的多模态模型仍然是专有的。  最强大的开放权重模型严重依赖来自专有 VLM 的合成数据以实现良好的性能,有效地将这些封闭模型提炼成开放模型。  因此,社区仍然缺乏关于如何从头开始构建高性能 VLM 的基础知识。  我们提出了 Molmo,一个新的 VLM 家族,在开放性方面处于其类别中的最先进水平。  我们的关键创新是使用基于语音的描述从人类标注者收集的全新、高度详细的图像字幕数据集。  为了支持各种用户交互,我们还引入了用于微调的多样化数据集混合,其中包括野外问答和创新的 2D 指向数据。  我们方法的成功依赖于对模型架构细节的精心选择、经过良好调整的训练管道,最重要的是,我们新收集的数据集的质量,所有这些都将发布。  Molmo 家族中最好的 72B 模型不仅在开放权重和数据模型类别中优于其他模型,而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览