文章预览
ICLR‘24来自上海AI实验室和复旦大学的论文“Scaling Laws Of Rope-Based Extrapolation”。 基于旋转位置嵌入(RoPE)的大语言模型 (LLM) (Su et al.,2021) 外推能力是目前备受关注的话题。解决使用 LLM 外推问题的主流方法是修改 RoPE,将原始 RoPE 中 θn = 10000^(−2n/d) 的旋转基数 10000 替换为更大的值,并提供更长的微调文本。这项工作用较小或较大的预训练上下文长度基对基于 RoPE 的 LLM 进行微调可以显著提高其外推性能。之后,提出基于 RoPE 外推的规模化定律,这是一个从周期性出发的统一框架,用于描述外推性能与基值以及上下文长度调整之间的关系。在此过程中,还通过外推的关键维度解释基于 RoPE 外推问题的起源。 观察 关于 RoPE 的外推问题,不同的研究提供了不同的解释和相应的解决尝试。这些研究可以分为两大流派。一派限制了自注意的范围 (Ratner
………………………………