Transformer的上下文学习能力是哪来的？

小白学视觉 · 公众号 · · 2024-09-06 10:05

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达来自 | 机器之心有理论基础，我们就可以进行深度优化了。为什么 transformer 性能这么好？它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来？在人工智能领域里，transformer 已成为深度学习中的主导模型，但人们对于它卓越性能的理论基础却一直研究不足。最近，来自 Google AI、苏黎世联邦理工学院、Google DeepMind 研究人员的新研究尝试为我们揭开谜底。在新研究中，他们对 transformer 进行了逆向工程，寻找到了一些优化方法。论文《Uncovering mesa-optimization algorithms in Transformers》：论文链接：https://arxiv.org/abs/2309.05858 作者证明，最小化通用自回归损失会产生在 Transformer 的前向传递中运行的基于辅助梯度的优化算法。这种现象最近被称为「mesa 优化（ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新闻株洲 · 最新名单公布！株洲2家上榜！

3 天前

湖南日报 · 电动车驾驶员被卷入轿车轮下！危急时刻，众人合力抬车救出

6 天前

株洲交通984 · 自行车大盗被抓了，看看有没有您的爱车

6 天前

湖南日报 · 未来10天全省前雨后晴，长沙最低气温将降至4℃

6 天前

InfoQ · 大模型时代的工业质检：技术革新与实践探讨

3 月前

冷叔笔记 · 高价低配、侮辱言论、制造焦虑，被骂翻的儿童手表为何大卖？

2 月前