今天看啥  ›  专栏  ›  新机器视觉

在CV界,传统卷积已经彻底输给Transformer了吗?

新机器视觉  · 公众号  · 科技自媒体  · 2024-12-23 11:34
    

主要观点总结

本文主要讨论了深度学习和计算机视觉领域中的Transformer和卷积神经网络(CNN)的应用和优缺点。文章指出,虽然Transformer在某些任务上表现优异,但在工业界应用中需要考虑成本、推理时间、训练时间、调试时间等问题。而CNN在某些方面如数据较少时的效果、训练难度、运行速度和对硬件的友好程度等方面具有优势。同时,也有研究尝试结合CNN和Transformer的优点,如Swin网络和ConvNeXT等。另外,本文还提到了一些关于神经网络架构创新的研究和最新进展,如朴素网络(VanillaNet)等。

关键观点总结

关键观点1: Transformer在工业界应用需要考虑多方面问题

文章指出,虽然Transformer在某些任务上表现优异,但其推理时间、训练时间和调试时间的增加会导致硬件成本、能耗、迭代时间和人力成本的翻倍,这在工业界是不可接受的。

关键观点2: CNN在某些方面具有优势

相比Transformer,CNN在数据较少时的效果更好,收敛更快;更容易训练,需要的超参数较少;运行更快,对硬件更友好。

关键观点3: 结合CNN和Transformer的优点

有研究表明,结合CNN和Transformer的优点可以取得更好的效果,如Swin网络和ConvNeXT等。同时,也有研究尝试融合两者的思想,以实现更高效和性能更强的神经网络架构。

关键观点4: 朴素网络(VanillaNet)等研究的进展

文章提到了朴素网络(VanillaNet)的研究进展,该网络试图利用最简单的卷积网络,尝试做出更强的效率和性能。此外,该网络在很多实际业务中已经开始应用。


文章预览

链接:https://www.zhihu.com/question/531529633 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:知乎用户 https://www.zhihu.com/question/531529633/answer/2473781572 是,输得很惨,我现在一看到面试者对Transformer一脸热情过度的样子都有点PTSD了 前面波尔德已经讲得很好了,Transformer冲击SOTA有用,但工业界不可能去用SOTA。既然是工业界,做什么都得考虑个成本,Transformer一上,就意味着推理时间,训练时间,调试时间成倍的增加。 推理时间翻倍,意味着硬件成本翻倍,也意味着同样的硬件能同时跑的模型变少。大部分硬件不支持意味着高效率硬件用不上,只能使用少数厂商的硬件,这就意味着硬件被人卡脖子。功耗成本增加也是问题。 训练时间翻倍,意味着迭代次数减少,迭代次数减少意味着你开发进度慢,意味着被市场淘汰。要跟上步子也可以,那么 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览