斯坦福/苹果等23所机构发布DCLM基准测试，高质量数据集能否撼动Scaling Laws？基础模型与Llama3 8B表现相当

HyperAI超神经 · 公众号 · · 2024-07-18 11:03

文章预览

作者：李姝编辑：李宝珠，三羊华盛顿大学、斯坦福大学、苹果等 23 所机构最新研究成果发布：DCLM 基准测试可生成高质量数据集，实现了从 412M 到 7B 不同参数模型参数规模上的试验数据管理策略，基础模型与 Llama 3 8B 表现相当。人们对 AI 模型的关注高热不下，关于 Scaling Laws 的争论也愈发热烈。 OpenAI 于 2020 年在论文「Scaling Laws for Neural Language Models」中首次提出 Scaling Laws，它被看作是大语言模型的摩尔定律。其释义可简要总结为：随着模型大小、数据集大小、（用于训练的）计算浮点数的增加，模型的性能会提高。在 Scaling Laws 的影响下，不少追随者始终认为「大」依然是提高模型性能的第一性原理。尤其是「财大气粗」的大厂，更加依赖于大型、多样化的语料数据集。对此，清华大学计算机系博士秦禹嘉指出，「LLaMA 3 告诉大家一个悲观 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博