文章预览
总结: 随着我们增加内存压缩次数的次数,Infini-attention 的性能会变得越来越差。据我们所知, ring attention 、 YaRN 和 rope scaling 这三种方法仍是将预训练模型拓展更长上下文的最佳方式。 ring attention https://x.com/Haojun_Zhao14/status/1815419356408336738 YaRN https://arxiv.org/abs/2309.00071 rope scaling https://arxiv.org/abs/2309.16039 引言: 语言模型的上下文长度也是除模型性能之外的重要属性之一。自 in-context learning (上下文学习) 出现以来,添加相关信息到模型的输入中日渐重要。因此,上下文长度迅速从段落 (BERT/GPT-1 的 512 个 tokens) 扩展到页面 (GPT-2 和 GPT-3 分别为 1024/2048 个 tokens), 再到书籍 (Claude 的 128k tokens), 甚至书籍集合 (Gemini 的 1-10M tokens)。然而,将 standard attention(标准注意力) 扩展到如此长度仍然面临挑战。 关于 Ring Attention (一种注意力机制) 的简单介绍: 据我们所知,Ring
………………………………