专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Scaling Law不是唯一视角!清华刘知远团队提出大模型“密度定律”:模型能力密度100天翻番

量子位  · 公众号  · AI  · 2024-12-09 14:18
    

主要观点总结

本文介绍了清华NLP实验室刘知远教授团队提出的关于大模型的“密度定律”(Densing Law),该定律表达了大模型能力密度随时间呈指数级增长的趋势。文中提到了能力密度的概念,它是衡量大模型性价比的新指标。研究团队通过引入能力密度的概念,发现了大模型的一些重要特性,比如最大能力密度随时间指数增长的趋势以及AI时代的三大核心引擎——电力、算力与智力都遵循密度快速增长的规律。此外,文章还介绍了尺度定律和大模型的其他度量与优化空间。最后,文章讨论了AI技术的未来发展,尤其是端侧智能的巨大潜力。

关键观点总结

关键观点1: 清华研究团队提出大模型的“密度定律”(Densing Law),表达了大模型能力密度随时间呈指数级增长的趋势。

这一定律揭示了能力密度是大模型发展的关键因素,并指出大模型的能力密度每三个月翻一番。

关键观点2: 研究团队引入了能力密度的概念来衡量大模型的性价比。

能力密度被定义为有效参数量与实际参数量的比值,为评估不同规模LLM的训练质量提供了新的统一度量框架。

关键观点3: 研究分析了近年来被广泛使用的29个开源大模型,发现LLMs的最大能力密度随时间增长迅速。

这种增长趋势推动了更高效模型的诞生和模型能力的快速提升。

关键观点4: 密度定律带来了重要推论,包括模型推理开销的指数级下降以及自ChatGPT发布以来大模型能力密度的加速增强。

这些推论揭示了模型能力提升的同时,也带来了成本降低和技术突破。

关键观点5: 文章讨论了AI技术的未来发展,特别是端侧智能的巨大潜力。

随着全球AI计算云端数据中心和边缘计算节点的扩张,以及模型能力密度的增长,本地化的AI模型将不断涌现,推动AI无处不在的愿景的实现。


文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Scaling Law并非描述大模型能力的唯一视角! 清华NLP实验室刘知远教授团队,最新提出大模型的 密度定律 (densing law) ,表达形式让人想到芯片领域的摩尔定律: 模型能力密度随时间呈指数级增长,2023年以来能力密度约每3.3个月 (约100天) 翻一倍。 根据密度定律,研究团队还得出以下重要推论——AI时代的三大核心引擎——电力、算力与智力,都同样遵循密度快速增长趋势。 为了发现这一结论,研究团队引入了一项衡量大模型性价比的新指标—— 能力密度 (capability density) 。 团队通过设置参考模型的方式,将“能力密度”定义为了 “有效参数量”与实际参数量的比值 。 给定目标模型后,其“有效参数量”被定义为实现与目标模型一样的效果,参考模型需要的最少参数量。 论文第一作者肖朝军表示 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览