专栏名称: PaperAgent
日更,解读AI前沿技术热点Paper
目录
相关文章推荐
今天看啥  ›  专栏  ›  PaperAgent

Meta领衔发布:一篇76页视觉-语言建模导论

PaperAgent  · 公众号  ·  · 2024-05-29 11:19
    

文章预览

Meta 领衔、其他机构包括: 蒙特利尔大学、 多伦多大学、 卡内基梅隆大学、 麻省理工学院等等, 作者有 41位 ,参考文献 300+ 篇,阵容强大! 视觉-语言模型(VLMs) 是一个研究领域,具有改变我们与技术互动方式的巨大潜力,但在构建这类模型方面存在许多挑战。Meta与学术界的一系列合作者一起发布了《视觉-语言建模导论》——希望这个新资源能帮助任何希望进入这个领域的人更好地理解视觉映射到语言背后的机制。涵盖了 VLMs的工作方式 、 如何训练它们 以及 评估方法 ——虽然它主要涉及图像到语言的映射,但也讨论了如何将 VLMs扩展到视频 中。 VLM家族 。 对比训练( Contrastive training )是一种常用的策略 ,它使用正例和负例对。VLM被训练为预测正例对的相似表示,同时预测负例对的不同表示。 遮蔽 ( Masking )是另一种可以利用来训练VLMs ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览