基础模型的高效长上下文扩展

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-06-12 00:23

文章预览

23年11月来自Meta GenAI的论文“Effective Long-Context Scaling of Foundation Models”。这是一系列长上下文 LLM，支持最多 32,768 个 tokens 的有效上下文窗。该模型系列通过更长的训练序列和长文本上采样的数据集从 LLAMA 2 进行持续预训练而构建。对语言建模、合成上下文探测任务和广泛的研究基准进行广泛的评估。在研究基准上，模型在大多数常规任务上实现持续改进，并在 LLAMA 2 上实现长上下文任务的显着改进。值得注意的是，通过一种不需要人工标注长指令数据的经济高效指令调优程序，其70B 模型已经可以超越 gpt-3.5-turbo-16k 在一系列长上下文任务上的整体性能。除了这些结果之外，对方法的各个组成部分进行了深入分析。研究了 LLAMA 的位置编码，并讨论了其在长依赖关系建模方面的局限性。还研究了预训练过程中各种设计选择的影响，包括数据混合和序 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博