文章预览
Meta 领衔、其他机构包括: 蒙特利尔大学、 多伦多大学、 卡内基梅隆大学、 麻省理工学院等等, 作者有 41位 ,参考文献 300+ 篇,阵容强大! 视觉-语言模型(VLMs) 是一个研究领域,具有改变我们与技术互动方式的巨大潜力,但在构建这类模型方面存在许多挑战。Meta与学术界的一系列合作者一起发布了《视觉-语言建模导论》——希望这个新资源能帮助任何希望进入这个领域的人更好地理解视觉映射到语言背后的机制。涵盖了 VLMs的工作方式 、 如何训练它们 以及 评估方法 ——虽然它主要涉及图像到语言的映射,但也讨论了如何将 VLMs扩展到视频 中。 VLM家族 。 对比训练( Contrastive training )是一种常用的策略 ,它使用正例和负例对。VLM被训练为预测正例对的相似表示,同时预测负例对的不同表示。 遮蔽 ( Masking )是另一种可以利用来训练VLMs
………………………………