文章预览
在非共识阶段打「先手」。 作者丨王悦 编辑丨陈彩娴 2020 年,1750 亿参数规模的 GPT-3 问世。彼时,完整训练 1750 亿参数的模型需要 3.14E11(TFLOPS)的每秒浮点运算量。如果使用英伟达 80GB A100 GPU(16位浮点算力有 312 TFLOPS,但在分布式环境中很难达到峰值),按照每张显卡 1.5 刀每小时的租赁价格来算,则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。 2024 年,大模型只需使用 2B 的参数规模即可达到和 2020 年的 GPT-3 一样的性能表现。 这一现象,类似于半导体领域中的「摩尔定律」——集成电路上可容纳的晶体管数目约每隔两年便会增加一倍,芯片性能因此持续提升。芯片制程带来终端算力持续增强,模型制程带来模型知识密度持续增强,两者交汇揭示端侧智能巨大潜力。 面壁此前推出的端侧多模态大模型—— MiniCPM-Llama3-V 2.5
………………………………