不要自回归！扩散模型作者创业，首个商业级扩散LLM来了，编程秒出结果

机器之心 · 公众号 · AI · 2025-02-27 12:40

文章预览

机器之心报道编辑：Panda、陈陈当前的 AI 领域，可以说 Transformer 与扩散模型是最热门的模型架构。也因此，有不少研究团队都在尝试将这两种架构融合到一起，以两者之长探索新一代的模型范式，比如我们之前报道过的 LLaDA 。不过，之前这些成果都还只是研究探索，并未真正实现大规模应用。今天凌晨，首个商业级扩散大型语言模型（dLLM）来了！该模型名为 Mercury，其表现非常卓越，在英伟达 H100 上能以每秒超过 1000 token 的速度运行，同时性能也并不比现有的经过速度优化的 LLM 差。下面是官方展示的一个对比示例。让一个自回归 LLM 与 Mercury 编写一个 LLM 推理函数。自回归模型迭代了 75 次，而这个 dLLM 却仅迭代了 14 次就完成了任务，速度要快得多。打造 Mercury 系列模型的是一家创业公司，名为 Inception Labs，该公司的创始人之一 Stefano Ermon 实 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

AI前线 · 创始人梁文锋亲创！DeepSeek 开源第四弹：全面公开优化并行策略

昨天

新智元 · DeepSeek开源三箭齐发，梁文峰亲自上阵！双向并行LLM训练飙升

昨天

爱可可-爱生活 · 【[393星]CockroachDB Swiss：Go语言实现的-20250226185242

昨天

机器之心 · 刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

3 天前

爱可可-爱生活 · 本文创新性地提出了基于稠密检索的推测解码框架 DReSD，通过语-20250225055026

3 天前

小蒜苗长 · 回复@云自医金莲田人类自医学:我当年读研究生的时候，专利的确可以-20240701113421

8 月前

越南那些事兒 · 越南笑了！4500名印度人组团到越南旅游，史上规模最大！

6 月前

仲量联行JLL · 未来办公场所设计——解锁企业愿景的“源动力”

3 天前