文章预览
23年11月来自Meta GenAI的论文“Effective Long-Context Scaling of Foundation Models”。 这是一系列长上下文 LLM,支持最多 32,768 个 tokens 的有效上下文窗。该模型系列通过更长的训练序列和长文本上采样的数据集从 LLAMA 2 进行持续预训练而构建。对语言建模、合成上下文探测任务和广泛的研究基准进行广泛的评估。在研究基准上,模型在大多数常规任务上实现持续改进,并在 LLAMA 2 上实现长上下文任务的显着改进。值得注意的是,通过一种不需要人工标注长指令数据的经济高效指令调优程序,其70B 模型已经可以超越 gpt-3.5-turbo-16k 在一系列长上下文任务上的整体性能。除了这些结果之外,对方法的各个组成部分进行了深入分析。研究了 LLAMA 的位置编码,并讨论了其在长依赖关系建模方面的局限性。还研究了预训练过程中各种设计选择的影响,包括数据混合和序
………………………………