自动驾驶感知算法工程师,专注计算机视觉|自动驾驶感知|深度学习|机器学习|AI前沿动态|编程技术|SLAM|资源分享
今天看啥  ›  专栏  ›  啥都会一点的研究生

Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积

啥都会一点的研究生  · 公众号  ·  · 2024-06-22 11:15

文章预览

来源 | 机器之心 用卷积能做出一样好的效果。 在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争论就没有断过。 近日,一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。 这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他(像最近很多 AI 学者一样)cue 了 Yann LeCun 表示,虽然图灵奖大佬认为纯 ViT 并不实用,但我们最近把自己的压缩器改成了纯 ViT,没有卷积,需要更长时间的训练,但是效果非常不错。 比如左图,被压缩到了只有 224 字节,右边是原始图像。 只有 14×128,这对自动驾驶用的世界模型来说作用很大,意味着可以输入大量数据用于训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览