专栏名称: AI科技评论
点评学术,服务 AI !
今天看啥  ›  专栏  ›  AI科技评论

WAIC 最具技术想象力成果发布:新架构面壁小钢炮又一次验证并加速了面壁定律

AI科技评论  · 公众号  ·  · 2024-07-05 20:38
    

文章预览

在非共识阶段打「先手」。 作者丨王悦 编辑丨陈彩娴 2020 年,1750 亿参数规模的 GPT-3 问世。彼时,完整训练 1750 亿参数的模型需要 3.14E11(TFLOPS)的每秒浮点运算量。如果使用英伟达 80GB A100 GPU(16位浮点算力有 312 TFLOPS,但在分布式环境中很难达到峰值),按照每张显卡 1.5 刀每小时的租赁价格来算,则需要使用一千张 A100 、花费81.6 万刀、用 22 天才能完成整个训练过程。 2024 年,大模型只需使用 2B 的参数规模即可达到和 2020 年的 GPT-3 一样的性能表现。 这一现象,类似于半导体领域中的「摩尔定律」——集成电路上可容纳的晶体管数目约每隔两年便会增加一倍,芯片性能因此持续提升。芯片制程带来终端算力持续增强,模型制程带来模型知识密度持续增强,两者交汇揭示端侧智能巨大潜力。 面壁此前推出的端侧多模态大模型—— MiniCPM-Llama3-V 2.5 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览