活动报名｜北大 & 谷歌，Token is all you need-看待模型的新角度，通用模型新结构

智源社区 · 公众号 · · 2024-11-11 12:39

文章预览

报告主题：北大 & 谷歌，Token is all you need-看待模型的新角度报告日期： 11 月12日（周二）15:30-16:30 报告要点: 得益于其处理各种数据的灵活性，在Token化所有的数据后，Transformer可以通用的建模任意输入，使其在AI各个领域都取得了显著成功。Transformer通常将处理单个Token所需的计算分为两个部分：与其他Token的交互（Token-Token Interaction）和涉及模型参数的计算（Token-Parameter Interaction）。Attention促进了Token-Token之间的交互，是Transformer成功的基础。然而，Token-Parameter计算主要依赖于固定的linear projection，大大限制这一部分计算的灵活性。在本文中，我们使用token这一概念建模所有的计算，即将model parameters也视为一种token，网络的计算统一为各种不同的token ( e.g., data tokens and parameter tokens)之间通过attention来进行交互，大大增强了Token-Parameter交互的灵活性。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博