专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
目录
今天看啥  ›  专栏  ›  深度学习与NLP

视觉SSL终于追上了CLIP!Yann LeCun、谢赛宁等新作,逆转VQA任务固有认知

深度学习与NLP  · 公众号  ·  · 2025-04-04 00:00
    

文章预览

来源 | 机器之心 在视觉问题解答(VQA)等多模态环境中,当前视觉自监督学习(SSL)的表现还比不上语言图像预训练(CLIP)。这种差距通常归因于语言监督引入的语义,尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。 在最近的一项研究中,Yann LeCun、谢赛宁等研究者探讨了一个基本问题: 语言监督对于多模态建模的视觉表征预训练是否必要? 论文标题:Scaling Language-Free Visual Representation Learning 论文链接:https://arxiv.org/pdf/2504.01017 项目地址:https://davidfan.io/webssl/ 「我们的目的不是要取代语言监督方法,而是要了解视觉自监督在多模态应用中的内在能力和局限性。为了进行公平的比较,我们在与最先进的 CLIP 模型相同的数十亿规模的网络数据(特别是 MetaCLIP 数据集)上训练 SSL 模型。在比较视觉 SSL 和 CLIP 时,这种方法可以控制数据的分 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览