专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

从loss视角理解大模型涌现能力

AINLP  · 公众号  ·  · 2024-06-18 10:09
    

文章预览

智谱在《Understanding Emergent Abilities of Language Models from the Loss Perspective》中提出一个观察大模型涌现能力的视角 -- 预训练loss,主要内容是通过一系列实验结果来解释一些关于涌现能力的观察。可以作为一个理解大模型的参考角度,也可以用于指导预训练模型的开发和优化。 1.背景 《Emergent abilities of large language models》把emergent ability定义为在大规模模型中有,而在参数量较小的模型没有的能力。 这个看法现在受到一些挑战: 目前很多在更大规模数据集训练出来的小模型,展现出比之前大规模模型更强的能力,比如LLaMA3在大部分评测指标上就比GPT-3强,很多以前千亿模型才能做到的任务,现在百亿甚至十亿的模型也能做好。 《Are emergent abilities of large language models a mirage?》认为产生涌现能力现象的因为是数据评测指标的非线性和不连续性带来的,如果使 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览