讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
清晨朗读会  ·  渊源直播 ·  2 天前  
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

基础模型的高效长上下文扩展

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-12 00:23
    

文章预览

23年11月来自Meta GenAI的论文“Effective Long-Context Scaling of Foundation Models”。 这是一系列长上下文 LLM,支持最多 32,768 个 tokens 的有效上下文窗。该模型系列通过更长的训练序列和长文本上采样的数据集从 LLAMA 2 进行持续预训练而构建。对语言建模、合成上下文探测任务和广泛的研究基准进行广泛的评估。在研究基准上,模型在大多数常规任务上实现持续改进,并在 LLAMA 2 上实现长上下文任务的显着改进。值得注意的是,通过一种不需要人工标注长指令数据的经济高效指令调优程序,其70B 模型已经可以超越 gpt-3.5-turbo-16k 在一系列长上下文任务上的整体性能。除了这些结果之外,对方法的各个组成部分进行了深入分析。研究了 LLAMA 的位置编码,并讨论了其在长依赖关系建模方面的局限性。还研究了预训练过程中各种设计选择的影响,包括数据混合和序 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览