专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

从loss视角理解大模型涌现能力

AINLP · 公众号 · · 2024-06-18 10:09

文章预览

智谱在《Understanding Emergent Abilities of Language Models from the Loss Perspective》中提出一个观察大模型涌现能力的视角 -- 预训练loss，主要内容是通过一系列实验结果来解释一些关于涌现能力的观察。可以作为一个理解大模型的参考角度，也可以用于指导预训练模型的开发和优化。 1.背景《Emergent abilities of large language models》把emergent ability定义为在大规模模型中有，而在参数量较小的模型没有的能力。这个看法现在受到一些挑战：目前很多在更大规模数据集训练出来的小模型，展现出比之前大规模模型更强的能力，比如LLaMA3在大部分评测指标上就比GPT-3强，很多以前千亿模型才能做到的任务，现在百亿甚至十亿的模型也能做好。《Are emergent abilities of large language models a mirage?》认为产生涌现能力现象的因为是数据评测指标的非线性和不连续性带来的，如果使 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

漳视新闻 · 心碎！谷爱凌突发意外消息

昨天

台州交通广播 · 心碎！谷爱凌突发意外消息

昨天

台州交通广播 · 心碎！谷爱凌突发意外消息

昨天

邳州银杏甲天下 · 每个她，都是生活中的“英雄”！

2 天前

今晚报 · 不到一分钟，瞬间售罄！近20万人期待……

2 天前

今晚报 · 不到一分钟，瞬间售罄！近20万人期待……

2 天前

江苏新闻 · 姚明最新发声！

3 天前

汇易咨询 · JCI：此轮厄尔尼诺转拉尼娜与09/10年度相似，距离引发大行情还有几步？

8 月前

一凡帝诺维奇 · 再论金猪（十三）二次育肥⑤

8 月前