专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

Big Model Weekly | 第31期

AI TIME 论道  · 公众号  ·  · 2024-07-27 10:00

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies 研究对大规模语言模型(LLMs)的扩展主要集中在模型参数和训练数据规模上,忽视了词汇量大小的作用。本文通过训练从3300万到30亿参数的模型,并使用高达5000亿字符的不同词汇配置,研究了词汇量大小如何影响LLM扩展法则。作者提出了三种互补的方法来预测计算最优的词汇量大小:等FLOPs分析、导数估计和损失函数的参数拟合。本文方法得出了相同的结果,即最优词汇量大小取决于可用的计算预算,并且更大的模型值得拥有更大的词汇量。然而,大多数LLMs使用的词汇量过小。例如,预测Llama2-70B的最优词汇量应该是至少21.6万,比其32K的词汇量大7倍。本文通过在不同的FLOPs预算下训练3B参数的模型,实证验证了预测。采用预测的最优词汇 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览