文章预览
作者:李姝 编辑:李宝珠,三羊 华盛顿大学、斯坦福大学、苹果等 23 所机构最新研究成果发布:DCLM 基准测试可生成高质量数据集,实现了从 412M 到 7B 不同参数模型参数规模上的试验数据管理策略,基础模型与 Llama 3 8B 表现相当。 人们对 AI 模型的关注高热不下,关于 Scaling Laws 的争论也愈发热烈。 OpenAI 于 2020 年在论文「Scaling Laws for Neural Language Models」中首次提出 Scaling Laws,它被看作是大语言模型的摩尔定律。其释义可简要总结为: 随着模型大小、数据集大小、(用于训练的)计算浮点数的增加,模型的性能会提高。 在 Scaling Laws 的影响下,不少追随者始终认为「大」依然是提高模型性能的第一性原理。尤其是「财大气粗」的大厂,更加依赖于大型、多样化的语料数据集。 对此,清华大学计算机系博士秦禹嘉指出,「LLaMA 3 告诉大家一个悲观
………………………………