WAIC 最具技术想象力成果发布：新架构面壁小钢炮又一次验证并加速了面壁定律

AI科技评论 · 公众号 · · 2024-07-05 20:38

文章预览

在非共识阶段打「先手」。作者丨王悦编辑丨陈彩娴 2020 年，1750 亿参数规模的 GPT-3 问世。彼时，完整训练 1750 亿参数的模型需要 3.14E11（TFLOPS）的每秒浮点运算量。如果使用英伟达 80GB A100 GPU（16位浮点算力有 312 TFLOPS，但在分布式环境中很难达到峰值），按照每张显卡 1.5 刀每小时的租赁价格来算，则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。 2024 年，大模型只需使用 2B 的参数规模即可达到和 2020 年的 GPT-3 一样的性能表现。这一现象，类似于半导体领域中的「摩尔定律」——集成电路上可容纳的晶体管数目约每隔两年便会增加一倍，芯片性能因此持续提升。芯片制程带来终端算力持续增强，模型制程带来模型知识密度持续增强，两者交汇揭示端侧智能巨大潜力。面壁此前推出的端侧多模态大模型—— MiniCPM-Llama3-V 2.5 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高校人才网V · 南方科技大学电子与电气工程系诚邀全球英才参加2025年优秀学者论坛

4 天前

爱可可-爱生活 · 【大规模零样本文本到语音合成评估协议：开源评估标准，促进未来研究-20240819174919

4 月前

ACS美国化学会 · ACS ES&T Engg. 封面文章 | 集成自监督预训练的图神经网络用于HO•高级氧化工艺中微污染物可处理性的可解释预测

2 月前