主要观点总结
本文主要讨论了深度学习和计算机视觉领域中的Transformer和卷积神经网络(CNN)的应用和优缺点。文章指出,虽然Transformer在某些任务上表现优异,但在工业界应用中需要考虑成本、推理时间、训练时间、调试时间等问题。而CNN在某些方面如数据较少时的效果、训练难度、运行速度和对硬件的友好程度等方面具有优势。同时,也有研究尝试结合CNN和Transformer的优点,如Swin网络和ConvNeXT等。另外,本文还提到了一些关于神经网络架构创新的研究和最新进展,如朴素网络(VanillaNet)等。
关键观点总结
关键观点1: Transformer在工业界应用需要考虑多方面问题
文章指出,虽然Transformer在某些任务上表现优异,但其推理时间、训练时间和调试时间的增加会导致硬件成本、能耗、迭代时间和人力成本的翻倍,这在工业界是不可接受的。
关键观点2: CNN在某些方面具有优势
相比Transformer,CNN在数据较少时的效果更好,收敛更快;更容易训练,需要的超参数较少;运行更快,对硬件更友好。
关键观点3: 结合CNN和Transformer的优点
有研究表明,结合CNN和Transformer的优点可以取得更好的效果,如Swin网络和ConvNeXT等。同时,也有研究尝试融合两者的思想,以实现更高效和性能更强的神经网络架构。
关键观点4: 朴素网络(VanillaNet)等研究的进展
文章提到了朴素网络(VanillaNet)的研究进展,该网络试图利用最简单的卷积网络,尝试做出更强的效率和性能。此外,该网络在很多实际业务中已经开始应用。
文章预览
链接:https://www.zhihu.com/question/531529633 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:知乎用户 https://www.zhihu.com/question/531529633/answer/2473781572 是,输得很惨,我现在一看到面试者对Transformer一脸热情过度的样子都有点PTSD了 前面波尔德已经讲得很好了,Transformer冲击SOTA有用,但工业界不可能去用SOTA。既然是工业界,做什么都得考虑个成本,Transformer一上,就意味着推理时间,训练时间,调试时间成倍的增加。 推理时间翻倍,意味着硬件成本翻倍,也意味着同样的硬件能同时跑的模型变少。大部分硬件不支持意味着高效率硬件用不上,只能使用少数厂商的硬件,这就意味着硬件被人卡脖子。功耗成本增加也是问题。 训练时间翻倍,意味着迭代次数减少,迭代次数减少意味着你开发进度慢,意味着被市场淘汰。要跟上步子也可以,那么
………………………………