专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

一次失败的实验 - 无限注意力,我们为什么坚持实验

AINLP  · 公众号  ·  · 2024-08-31 22:45

文章预览

总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知, ring attention 、 YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。 ring attention https://x.com/Haojun_Zhao14/status/1815419356408336738 YaRN https://arxiv.org/abs/2309.00071 rope scaling https://arxiv.org/abs/2309.16039 引言: 语言模型的上下文长度也是除模型性能之外的重要属性之一。自 in-context learning (上下文学习) 出现以来,添加相关信息到模型的输入中日渐重要。因此,上下文长度迅速从段落 (BERT/GPT-1 的 512 个 tokens) 扩展到页面 (GPT-2 和 GPT-3 分别为 1024/2048 个 tokens), 再到书籍 (Claude 的 128k tokens), 甚至书籍集合 (Gemini 的 1-10M tokens)。然而,将 standard attention(标准注意力) 扩展到如此长度仍然面临挑战。 关于 Ring Attention (一种注意力机制) 的简单介绍: 据我们所知,Ring ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览