今天看啥  ›  专栏  ›  机器之心

语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

机器之心  · 公众号  · AI  · 2025-02-17 11:57
    

文章预览

‍ AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本文由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队和蚂蚁集团共同完成。共同一作聂燊和朱峰琪是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授,论文为二者在蚂蚁实习期间完成。蚂蚁集团张晓露、胡俊,人民大学林衍凯、李崇轩为共同项目负责人。李崇轩副教授为唯一通讯作者。LLaDA 基于李崇轩课题组的前期工作 RADD [1] 和 SMDM [2] 。目前这两篇论文均已被 ICLR2025 接收。 近年来,大语言模型(LLMs)取得了突破性进展,展现了诸如上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览