专栏名称: 中国人工智能学会
关注中国人工智能学会官方公共账号,收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。
今天看啥  ›  专栏  ›  中国人工智能学会

观点分享丨ann LeCun:ViT慢且效率低,实时图像处理还得看卷积

中国人工智能学会  · 公众号  · AI  · 2024-06-04 17:45
    

文章预览

转自 机器之心 机器之心报道 编辑:泽南、杜伟 用卷积能做出一样好的效果。 在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争论就没有断过。 近日,一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。 这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他(像最近很多 AI 学者一样)cue 了 Yann LeCun 表示,虽然 图灵奖 大佬认为纯 ViT 并不实用,但我们最近把自己的压缩器改成了纯 ViT,没有卷积,需要更长时间的训练,但是效果非常不错。 比如左图,被压缩到了只有 224 字节,右边是原始图像。 只有 14×128,这对自动驾驶用的世界模型来说作用很大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览