LLM 系列超详细解读 (十)｜大语言模型中的超大激活值

arXiv每日学术速递 · 公众号 · · 2024-08-31 18:37

文章预览

作者丨科技猛兽编辑丨极市平台极市导读本文作者观察到大语言模型 (LLM) 中的一个现象：即一些小部分激活值比其他激活值大很多 (比如 100,000 倍)。作者把这种现象称之为 "超大激活值 (massive activations)"。本文目录 1 大语言模型中的超大激活值 (来自 CMU, Meta AI) 1.1 大语言模型的内部机制探索 1.2 超大激活值的定义 1.3 超大激活值的性质 1.4 超大激活值的位置 1.5 与异常特征的关系 1.6 超大激活值作为 LLM 中的偏置项 1.7 注意力集中在超大激活值上 1.8 超大激活值强加在隐式注意力偏差 1.9 施加显式的注意力偏置项来消除超大激活值 1.10 视觉 Transformer 中的超大激活值太长不看版本文作者观察到大语言模型 (LLM) 中的一个现象：即一些小部分激活值比其他激活值大很多 (比如 100,000 倍)。作者把这种现象称之为 "超大激活值 (massive activations)"。关于超大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博