一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

长序列(Long Context)大模型笔记

深度学习自然语言处理  · 公众号  ·  · 2024-10-12 21:51

文章预览

知乎:Rooters 链接:https://zhuanlan.zhihu.com/p/926602895 过去一年中,长序列大模型(LLM)的训练和推理方法在业界取得了显著进展,本文将从 模型建模 和 机器学习系统 两个方面进行总结,并讨论一些值得进一步探索的方向。欢迎大家提出意见、补充和讨论! 位置编码(Position Embedding) ALIBI 和 RoPE 在一年前刚开始探索长序列时,部分模型选择了 ALIBI 或 RoPE 作为位置编码方法。然而,随着时间的推移,大部分新模型(如 LLaMA、Mistral 和 Cohere)都倾向于使用 RoPE 作为默认选择。 ALIBI 最初有理论上的优势,原始论文声称它可以实现无损外推。然而,后续的工作发现,当训练的 token 数量达到一定阈值(如 1T)时,模型会过拟合到训练的长度。此外,ALIBI 没有类似 RoPE-NTK 这种微调方式,尽管也有像 Position Interpolation 这样的尝试,但效果不尽如人意。 在系统 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览