今天看啥  ›  专栏  ›  国泰君安证券研究

国君计算机|MoE与思维链助力大模型技术路线破局

国泰君安证券研究  · 公众号  · 证券  · 2024-09-23 06:58

文章预览

摘要: 投资建议: 随着Transformer架构大模型在算力侧成本攀升,升级迭代遇到瓶颈,技术路线相关探索有望打造性能更优、应用范围更专更准的AI大模型。 巨额算力投入成为技术和效益优化的瓶颈,技术路径破局迫在眉睫。 从效益端看,基于Transformer架构的模型在训练计算量(training FLOPs)达到一定量级时,模型性能才出现向上的“拐点”,因此在大模型训练任务中,算力成为必须的基础性资源。但随着模型越来越大,算力成本越来越高,成本飙升源于模型复杂度和数据量攀升对计算资源的需求。Anthropic首席执行官表示,三年内AI模型的训练成本将上升到100亿美元甚至1000亿美元。巨额的大模型训练投入一定程度减缓了技术进步和效益提升,因此技术路径破局尤为关键。当前MoE以及OpenAI o1的“思维链”是重要探索实践。 MoE框架是对Transformer架构的优 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览