在CV界，传统卷积已经彻底输给Transformer了吗？

新机器视觉 · 公众号 · 科技自媒体 · 2024-12-23 11:34

主要观点总结

本文主要讨论了深度学习和计算机视觉领域中的Transformer和卷积神经网络（CNN）的应用和优缺点。文章指出，虽然Transformer在某些任务上表现优异，但在工业界应用中需要考虑成本、推理时间、训练时间、调试时间等问题。而CNN在某些方面如数据较少时的效果、训练难度、运行速度和对硬件的友好程度等方面具有优势。同时，也有研究尝试结合CNN和Transformer的优点，如Swin网络和ConvNeXT等。另外，本文还提到了一些关于神经网络架构创新的研究和最新进展，如朴素网络（VanillaNet）等。

关键观点总结

关键观点1: Transformer在工业界应用需要考虑多方面问题

文章指出，虽然Transformer在某些任务上表现优异，但其推理时间、训练时间和调试时间的增加会导致硬件成本、能耗、迭代时间和人力成本的翻倍，这在工业界是不可接受的。

关键观点2: CNN在某些方面具有优势

相比Transformer，CNN在数据较少时的效果更好，收敛更快；更容易训练，需要的超参数较少；运行更快，对硬件更友好。

关键观点3: 结合CNN和Transformer的优点

有研究表明，结合CNN和Transformer的优点可以取得更好的效果，如Swin网络和ConvNeXT等。同时，也有研究尝试融合两者的思想，以实现更高效和性能更强的神经网络架构。

关键观点4: 朴素网络（VanillaNet）等研究的进展

文章提到了朴素网络（VanillaNet）的研究进展，该网络试图利用最简单的卷积网络，尝试做出更强的效率和性能。此外，该网络在很多实际业务中已经开始应用。

文章预览

链接：https://www.zhihu.com/question/531529633 编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：知乎用户 https://www.zhihu.com/question/531529633/answer/2473781572 是，输得很惨，我现在一看到面试者对Transformer一脸热情过度的样子都有点PTSD了前面波尔德已经讲得很好了，Transformer冲击SOTA有用，但工业界不可能去用SOTA。既然是工业界，做什么都得考虑个成本，Transformer一上，就意味着推理时间，训练时间，调试时间成倍的增加。推理时间翻倍，意味着硬件成本翻倍，也意味着同样的硬件能同时跑的模型变少。大部分硬件不支持意味着高效率硬件用不上，只能使用少数厂商的硬件，这就意味着硬件被人卡脖子。功耗成本增加也是问题。训练时间翻倍，意味着迭代次数减少，迭代次数减少意味着你开发进度慢，意味着被市场淘汰。要跟上步子也可以，那么 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博