今天看啥  ›  专栏  ›  SparksofAGI

涌现在连续度量下也会发生:从损失视角理解语言模型的涌现能力

SparksofAGI  · 公众号  ·  · 2024-04-07 22:43

文章预览

Understanding Emergent Abilities of Language Models from the Loss Perspective 涌现在连续度量下也会发生:从损失视角理解语言模型的涌现能力 ‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍ 近期的研究对于这样一个观点提出了质疑:语言模型中的涌现能力仅限于大模型。这种怀疑来源于两个观察: 1) 较小的模型也能在涌现能力上展现出高性能;2) 对于衡量这些能力的不连续度量标准存在疑问 。在本文中, 作者提出通过预训练损失来研究涌现能力,而非模型大小或训练计算量 。作者展示了拥有相同预训练损失但不同模型和数据大小的模型,在各种下游任务上生成了相同的性能。他们还发现, 当模型的预训练损失降至特定阈值以下时,无论度量标准的连续性如何,模型都会在某些任务上展现出涌现能力 。而在达到该阈值前,其性能保持在随机猜测的水平。 基于以上观察,作者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览