Deepseek R1 编写的 GPU 内核居然比英伟达工程师还好

歸藏的AI工具箱 · 公众号 · · 2025-02-14 15:06

文章预览

刷推看到一个离谱的 Deepseek 研究。　英伟达让 Deepseek R1 帮助他们优化 GPU 内核代码，结果在长时间思考后 R1 的一些结果比英伟达自己的熟练工程师还要做的好。　具体的实验是自动生成数值正确且针对不同注意力机制优化的 GPU 注意力内核，而无需任何显式编程。　而且他们的方法也很简单：　 1. DeepSeek-R1 生成初始 GPU 内核代码 2. 验证器（H100GPU 运行）分析生成的内核并提供反馈 3. 将其反馈回 DeepSeek-R1 以生成修订后的内核 4. 过程重复一定的持续时间他们发现只要持续超过 10 分钟就能生成大多数问题的正确代码　来看一下具体的背景和过程。　为什么要优化注意力内核 & 核心挑战是什么注意力机制是一个关键概念，它彻底改变了大型语言模型（LLM）的发展。它是一种强大的机制，使 AI 模型在执行任务时能够有选择地关注输入中最相 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博