主要观点总结
本文主要介绍了幻方量化发布的DeepSeek-V3模型的特点和其对市场、应用、算力需求等方面的影响。DeepSeek-V3模型利用MoE、fp8混合精度等技术,降低了训练大模型的成本,引发了资本市场的热议。该模型的创新技术对其他模型团队有借鉴意义,但也需要考虑模型性能和宏观维度的大厂资本开支趋势。同时,文章还提到了上海市政府的人工智能'模塑申城'实施方案,以及服务器和IDC投资的相关情况。
关键观点总结
关键观点1: 幻方量化发布DeepSeek-V3模型的特点
DeepSeek-V3模型使用MoE和fp8混合精度等技术,降低了训练成本,具有性能强、成本低、引领创新等优点。
关键观点2: DeepSeek-V3模型对市场的影响
DeepSeek-V3模型的发布在行业内形成鲶鱼效应,促进了国内大模型格局的变化,推动了行业的发展。
关键观点3: DeepSeek-V3模型对算力的需求
虽然DeepSeek-V3模型降低了训练成本,但算力的投入依然会继续增加。预训练的算力需求也无需过度悲观,技术的演进也是周期交替的。
关键观点4: 上海市政府的人工智能'模塑申城'实施方案
上海市政府计划到2025年底建成世界级人工智能产业生态,推动重点领域垂直应用。初步测算,服务器及IDC投资约为180亿元。
文章预览
本周市场热点继续聚焦在字节、小米等国内玩家的边际进展,但最值得关注的事件,应该是幻方量化发布了DeepSeek-V3模型。 该模型一经发布就在国内外迅速出圈,并引发了资本市场的热烈讨论 ,它的特点是利用MoE、fp8混合精度等技术,让训练一个类似于GPT4o的大模型所需消耗的算力成本下降为十分左右,相应的后续推理模型成本也将大幅下降,有利于大模型应用的大范围普及。 直观上看,是会减少训练侧的算力需求,这应该一分为二来看: (1)一线大模型的持续升级,还将需要指数级增加的算力投入,最终才有可能通向AGI,海外OPENAI、XAI等厂商的投入力度不会变; (2)二线大模型追赶一线模型的训练成本将大幅下降,本质是后发优势,在前人已做好的成熟架构里做优化,是国产厂商的福音(后续字节、小米有望以更低成本推进自己的大模型成
………………………………