主要观点总结
文章讨论了关于博通ASIC大卫星和Ilya的“预训练放缓”论的相关观点,主要来自一位有17年AI芯片、自动驾驶、机器人等研发经验的专家。文章关键点包括:模型性能提升趋于平稳,但创新仍在进行;训练成本高昂,CSPs可能转向争夺客户和商业化;推理的重要性提升,开源模型地位上升;Test time compute测试时间计算不是未来常态;模型架构和尺寸的根本性变化将改变AI硬件要求;分布式计算和边缘计算的兴起;网络面临的挑战以及未来发展趋势;中国AI芯片的突破口;AI芯片厂商的三大阵营以及GPU与ASIC的优缺点等。
关键观点总结
关键观点1: 专家观点:模型性能提升接近瓶颈,但创新仍在发生。
专家认同模型性能提升趋于平稳,同时指出仍有创新方式如模型架构及压缩方式改变、硬件创新和更好的数据集来触发下一轮性能提升。
关键观点2: 训练成本高昂,CSP策略转变。
由于训练成本高昂,只有少数CSP有能力进行训练。它们的策略可能转向争夺客户、商业化以及客户留存。
关键观点3: 推理的重要性提升,开源模型地位上升。
随着对模型可部署性和创造营收的关注增加,推理的重要性提高。开源模型地位将提升,AI应用厂商可以在开源模型基础上构建应用。
关键观点4: Test time compute不是未来常态。
专家指出Test time compute在未来不会成为常态,其成本高且涉及延迟,可能有更好的方法解决准确性问题。
关键观点5: 模型架构和尺寸的变化将深刻改变AI硬件要求。
专家提到模型架构和尺寸的根本性变化将深刻改变AI硬件需求,使AI不仅局限于数据中心,还广泛应用于端侧。
关键观点6: 分布式计算和边缘计算兴起。
分布式计算是未来趋势,能根据问题的复杂性、性质进行拆分查询,解决计算能力方面的挑战。边缘计算的兴起势在必行。
关键观点7: 网络面临的挑战和未来发展趋势。
网络面临高速和低延迟问题的挑战。生态参与者认同开放连接协议、随时间改进是未来的趋势。
关键观点8: 中国AI芯片的突破口和AI芯片厂商三大阵营。
由于前沿半导体出口限制,中国AI芯片计算密度较低,可采用横向扩展方法。AI芯片厂商三大阵营包括英伟达GPU、CSP+博通/Marvell的自制ASIC、新兴AI芯片设计厂商。
文章预览
关于博通ASIC大卫星、Ilya的“预训练放缓”论,有一篇纪要特别适合当下的讨论。专家是著名“硅仙人” Jim Keller目前AI芯片创业公司的一名技术Lead,本人有17年AI芯片、自动驾驶、机器人等研发经验。 有很多非共识的观点 ,比如o1不是最佳路线、GPU的短板等等 (以下仅代表专家个人观点,不代表xxpq观点) 1. 专家也认为模型性能提升趋于平稳, 确实看到了收益递减的情况。 但同时创新还在发生 ,比如通过 模型架构及压缩方式 的改变、 硬件的创新 、 更好的数据集 (扩充和质量提升),来触发下一轮性能提升。英伟达和各种AI芯片创新公司将推动硬件创新,Mistral 和 Falcon Mamba 架构等正在对 Transformer 架构发起挑战, 同时其他模型架构改进也正在进行中。(xxpq:我之前提过一家华人做的all in RL的公司,他们最近炙手可热...) 2. 由于训练成本越来越
………………………………