观点分享丨ann LeCun：ViT慢且效率低，实时图像处理还得看卷积

中国人工智能学会 · 公众号 · AI · 2024-06-04 17:45

文章预览

转自机器之心机器之心报道编辑：泽南、杜伟用卷积能做出一样好的效果。在 Transformer 大一统的时代，计算机视觉的 CNN 方向还有研究的必要吗？今年年初，OpenAI 视频大模型 Sora 带火了 Vision Transformer（ViT）架构。此后，关于 ViT 与传统卷积神经网络（CNN）谁更厉害的争论就没有断过。近日，一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他（像最近很多 AI 学者一样）cue 了 Yann LeCun 表示，虽然图灵奖大佬认为纯 ViT 并不实用，但我们最近把自己的压缩器改成了纯 ViT，没有卷积，需要更长时间的训练，但是效果非常不错。比如左图，被压缩到了只有 224 字节，右边是原始图像。只有 14×128，这对自动驾驶用的世界模型来说作用很大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 恭喜@爱生活爱家庭的Noor 等3名用户获得【《爱因斯坦学习法》-20250417120209

14 小时前

爱可可-爱生活 · 今日推介(第1743期)：用非侵入式数据增强技术改善语言模型的规-20250417060548

20 小时前

爱可可-爱生活 · 《爱可可微博热门分享(4.16)》爱可可微博热门分享(4.1-20250416223602

昨天

宝玉xp · 转发微博-20250416133343

昨天

黄建同学 · RAG 系统中获得的 10 个经验教训，值得一看↓-20250415215030

2 天前

爸爸真棒 · 斯坦福博士回乡镇当公务员被骂惨了？我却想说，这已是他最好的出路……

10 月前

FBIF食品饮料创新 · 产能过剩、竞争加剧后，乳企们卷向低温奶

7 月前

番禺日报 · 年内开通！途经番禺的这条地铁线路有新进展

1 月前