专栏名称: 晚点LatePost
晚一点,好一点。这是《财经》杂志与小晚团队联合推出的新品牌。全部一手采访,没有二手信息。做你最信任的商业新闻媒体。
今天看啥  ›  专栏  ›  晚点LatePost

月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖

晚点LatePost  · 公众号  ·  · 2025-02-20 22:21
    

文章预览

“从开源论文、开源代码出发,现在已经进化到开源思维链了嘛!” 文丨Andrew Lu 注释丨贺乾明 程曼祺 2 月 18 日,Kimi 和 DeepSeek 同一天发布新进展,分别是 MoBA 和 NSA,二者都是对 “注意力机制”(Attention Mechanism)的改进。 今天,MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖,自述研发过程的三次踩坑,他称为 “三入思过崖”。他在知乎的签名是“新晋 LLM 训练师”。 这条回答下的一个评论是:“从开源论文、开源代码出发,现在已经进化到开源思维链了嘛。” 注意力机制之所以重要,是因为它是当前大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启 LLM 革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切),该论文被引用次数至今已达 15.3 万。 注意力机制能让 AI 模型像人类一样,知道在处理信息时该 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览