文章预览
(报告出品方/作者:平安证券,闫磊、黄韦涵、王佳一) 技术:大模型发展呈现“规模定律”,Transformer为技术基座 大模型“大力出奇迹”的背后:Scaling Law 大规模语言模型(Large Language Models,LLM)泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。 与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言理解能力和复 杂任务求解能力。 大模型发展普遍呈现“规模定律”(Scaling Law)特征,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系, 性能会随着这三个因素的指数增加而线性提高。大模型的参数规模远大于传统深度学习模型,传统模型参数量通常在数万至数亿之间,大 模型的参数量则至少在亿级,并已发展到过万亿级的规模。如OpenAI的GPT-1到GP
………………………………