视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

深度学习与NLP · 公众号 · · 2025-04-04 00:00

文章预览

来源 | 机器之心在视觉问题解答（VQA）等多模态环境中，当前视觉自监督学习（SSL）的表现还比不上语言图像预训练（CLIP）。这种差距通常归因于语言监督引入的语义，尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。在最近的一项研究中，Yann LeCun、谢赛宁等研究者探讨了一个基本问题：语言监督对于多模态建模的视觉表征预训练是否必要？论文标题：Scaling Language-Free Visual Representation Learning 论文链接：https://arxiv.org/pdf/2504.01017 项目地址：https://davidfan.io/webssl/ 「我们的目的不是要取代语言监督方法，而是要了解视觉自监督在多模态应用中的内在能力和局限性。为了进行公平的比较，我们在与最先进的 CLIP 模型相同的数十亿规模的网络数据（特别是 MetaCLIP 数据集）上训练 SSL 模型。在比较视觉 SSL 和 CLIP 时，这种方法可以控制数据的分 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博