注册登录

专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

目录

相关文章推荐

前端大全 · 再见了Vue3，前端AI已成气候！ · 13 小时前

青岛交通广播FM897 · 刚刚通报：涉事10人被处理！ · 昨天

青岛交通广播FM897 · 刚刚通报：涉事10人被处理！ · 昨天

今天看啥 › 专栏 › 专知

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

专知 · 公众号 · · 2024-06-28 14:00

文章预览

转载机器之心：本文作者李宏康，美国伦斯勒理工大学电气、计算机与系统工程系在读博士生，本科毕业于中国科学技术大学。研究方向包括深度学习理论，大语言模型理论，统计机器学习等等。目前已在 ICLR/ICML/Neurips 等 AI 顶会发表多篇论文。上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力，但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。近期，一个来自美国伦斯勒理工大学和 IBM 研究院的团队从优化和泛化理论的角度分析了带有非线性注意力模块 (attention) 和多层感知机 (MLP) 的 Transformer 的 ICL 能力。他们特别从理论端证明了单层 Transformer 首先在 attention 层根据 query 选择一些上下文示例，然后在 MLP 层根据标签嵌入进行预测的 ICL 机制。该文章 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

前端大全 · 再见了Vue3，前端AI已成气候！

13 小时前

青岛交通广播FM897 · 刚刚通报：涉事10人被处理！

昨天

青岛交通广播FM897 · 刚刚通报：涉事10人被处理！

昨天

教练吧 · 教练分享 | 你要讲大道理，而孩子只要体验

9 月前

刘润 · 限量版刘润签名书《5分钟商学院》：人人都是自己的CEO

9 月前

Prosynx · 比翱研究院丨超材料库，为晶格设计创新独辟蹊径

8 月前

宝玉xp · 现在有ChatGPT了//@程序员邹欣://@史海悠游:学校的声-20241018050846

6 月前

GIS研发 · 单应性矩阵应用之图像拼接

6 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号