文章预览
DeepSeek-R1 之后:工程曙光、学术地狱 作者:PeLi 原文:https://zhuanlan.zhihu.com/p/21569724414 DS-R1 发布之后整个春节每天都有 DeepSeek 的新闻和评论,亲戚朋友随便一个不懂 AI 的人都在讨论我们给了美利坚怎样一记重击。但所谓太阳之下无新事,NeurIPS 24 能收到一万五千篇投稿,全世界能冒出成百上千家 AI 公司,加上在搞 AI 的主要就是中美,那中美谁走出这一步都不奇怪。世上发生的一切都有历史的影子。 我们回过头来看 14 年的视觉 AI 可以发现一个与 LLM 极其相似的演化路线: 算法突破提供新的理论框架 AlexNet (2012)、VGG (2013) SDPA Transformer (2017) 基本工程化提升实验效率 Caffe (2014) HF transformers (2019)、Triton (2021) 大规模 Scale up 提升模型能力 ResNet (2015)、DenseNet (2016) GPT-3 (2020)、Llama (2023) 进一步工程化降低训练推理成本 PyTorch (2016)、TVM (2018) flash-attn (2
………………………………