涌现在连续度量下也会发生：从损失视角理解语言模型的涌现能力

SparksofAGI · 公众号 · · 2024-04-07 22:43

文章预览

Understanding Emergent Abilities of Language Models from the Loss Perspective 涌现在连续度量下也会发生：从损失视角理解语言模型的涌现能力 ‍‍‍‍‍‍‍‍‍ ‍‍‍‍‍ 近期的研究对于这样一个观点提出了质疑：语言模型中的涌现能力仅限于大模型。这种怀疑来源于两个观察： 1) 较小的模型也能在涌现能力上展现出高性能；2) 对于衡量这些能力的不连续度量标准存在疑问。在本文中，作者提出通过预训练损失来研究涌现能力，而非模型大小或训练计算量。作者展示了拥有相同预训练损失但不同模型和数据大小的模型，在各种下游任务上生成了相同的性能。他们还发现，当模型的预训练损失降至特定阈值以下时，无论度量标准的连续性如何，模型都会在某些任务上展现出涌现能力。而在达到该阈值前，其性能保持在随机猜测的水平。基于以上观察，作者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

概念股逻辑 · 节后，大盘要涨停？

13 小时前

概念股逻辑 · 节后，大盘要涨停？

13 小时前

海龟社区 · 最新231家上市公司发布减持公告！

昨天

唐史主任司马迁 · 早上离开酒店的时候，和经理说要自驾几个小时，路上吃饭不方便，能不-20241001135802

3 天前

淘股吧 · 仅剩1只股票，明日清零！

5 天前

Lucy三娘财富之旅 · 三娘周记2024年9月28日

5 天前

展厅展馆设计联盟 · 多图预警！国外展馆设计全景欣赏丨美国鲍勃·迪伦博物馆，3栋楼的大型名人展馆

1 月前