专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

清华微软最新力作：用物理学革新Transformer注意力，「大海捞针」精度暴涨30%！

新智元 · 公众号 · AI · 2024-10-09 13:15

文章预览

新智元报道编辑：乔杨好困【新智元导读】随着诺贝尔物理学奖颁给了「机器学习之父」Geoffrey Hinton，另一个借鉴物理学概念的模型架构也横空出世——微软清华团队的最新架构Differential Transformer，从注意力模块入手，实现了Transformer的核心能力提升。随着近些年来NLP领域研究的不断深入，我们逐渐发现，Transformer架构中出现的幻觉问题，以及各种下游任务中的性能不足，都或多或少与注意力缺陷有关。虽然上下文窗口可以扩展，但是Transformer还是无法真正关注到有价值的信息。最近，微软研究院和清华大学的研究人员共同提出了一种新的模型架构——Differential Transformer，不仅保留了原始Transformer中的可扩展性，也能让模型更加关注上下文中与任务相关的关键信息。实验表明，注意力机制的改进，不仅显著提升了检索精度，还能缓解LLM的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【CodebaseToPrompt：将本地文件转换为大型语言模型-20250105135249

昨天

宝玉xp · 一用 AI 生成代码，哎，还是React吧……-20250104141627

2 天前

宝玉xp · 艺术家 Andrew Scott 作品宝玉xp的微博视频 -20250104112839

2 天前

爱可可-爱生活 · “从想法到手办，只要10分钟” 这听起来像是不可能的任务，但现在-20250103174917

3 天前

爱可可-爱生活 · 2024.7.2起，播客更新从未间断，只是最近没在微博转发。现在-20250103155953

3 天前

南沙365 · 投诉！南沙街头再次出现！违规投放44台！

7 月前

正解局 · 三只羊风波之后：有人炒作复播，有人晒 “退一赔三”到账截屏

2 月前