今天看啥  ›  专栏  ›  HyperAI超神经

斯坦福/苹果等23所机构发布DCLM基准测试,高质量数据集能否撼动Scaling Laws?基础模型与Llama3 8B表现相当

HyperAI超神经  · 公众号  ·  · 2024-07-18 11:03

文章预览

作者:李姝 编辑:李宝珠,三羊 华盛顿大学、斯坦福大学、苹果等 23 所机构最新研究成果发布:DCLM 基准测试可生成高质量数据集,实现了从 412M 到 7B 不同参数模型参数规模上的试验数据管理策略,基础模型与 Llama 3 8B 表现相当。 人们对 AI 模型的关注高热不下,关于 Scaling Laws 的争论也愈发热烈。 OpenAI 于 2020 年在论文「Scaling Laws for Neural Language Models」中首次提出 Scaling Laws,它被看作是大语言模型的摩尔定律。其释义可简要总结为: 随着模型大小、数据集大小、(用于训练的)计算浮点数的增加,模型的性能会提高。 在 Scaling Laws 的影响下,不少追随者始终认为「大」依然是提高模型性能的第一性原理。尤其是「财大气粗」的大厂,更加依赖于大型、多样化的语料数据集。 对此,清华大学计算机系博士秦禹嘉指出,「LLaMA 3 告诉大家一个悲观 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览