专栏名称: 清熙
清晰、客观、理性探讨大模型(LLM)、人工智能(AI)、大数据(Big Data)、物联网(IoT)、云计算(Cloud)、供应链数字化等热点科技的原理、架构、实现与应用。
今天看啥  ›  专栏  ›  清熙

Scaling Law的有趣新进展

清熙  · 公众号  ·  · 2024-05-25 12:38
    

文章预览

一、缩放定律(Scaling Law)   在AI领域,“缩放定律” 描述了损失如何随着模型和数据集大小变化。   即观察到AI模型的性能与参数量和token量成比例,而这些量由其使用的计算量决定。       因而通常用4个变量来概述神经网络模型:模型大小、训练数据集大小、训练成本和训练后的性能。   这四个变量都可精确定义为实数,并且在统计学上被发现是相互关联的,即所谓的“缩放定律”。   也有人写成:Y = f(X, Z) 其中Y是模型观测性能,X是模型大小,Z是训练数据集大小,f是缩放函数。很直观,中学生都懂。       二、OpenAI的定义   2020当年名不见经传的OpenAI 定义了神经语言模型的Scaling Law。       论文研究了语言模型在交叉熵损失下的性能经验性缩放定律。   损失与模型大小、数据集大小和用于训练的计算量成指数关系,其中一些趋势跨越了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览