一位资深ASIC专家

信息平权 · 公众号 · 科技自媒体 · 2024-12-14 22:15

主要观点总结

文章讨论了关于博通ASIC大卫星和Ilya的“预训练放缓”论的相关观点，主要来自一位有17年AI芯片、自动驾驶、机器人等研发经验的专家。文章关键点包括：模型性能提升趋于平稳，但创新仍在进行；训练成本高昂，CSPs可能转向争夺客户和商业化；推理的重要性提升，开源模型地位上升；Test time compute测试时间计算不是未来常态；模型架构和尺寸的根本性变化将改变AI硬件要求；分布式计算和边缘计算的兴起；网络面临的挑战以及未来发展趋势；中国AI芯片的突破口；AI芯片厂商的三大阵营以及GPU与ASIC的优缺点等。

关键观点总结

关键观点1: 专家观点：模型性能提升接近瓶颈，但创新仍在发生。

专家认同模型性能提升趋于平稳，同时指出仍有创新方式如模型架构及压缩方式改变、硬件创新和更好的数据集来触发下一轮性能提升。

关键观点2: 训练成本高昂，CSP策略转变。

由于训练成本高昂，只有少数CSP有能力进行训练。它们的策略可能转向争夺客户、商业化以及客户留存。

关键观点3: 推理的重要性提升，开源模型地位上升。

随着对模型可部署性和创造营收的关注增加，推理的重要性提高。开源模型地位将提升，AI应用厂商可以在开源模型基础上构建应用。

关键观点4: Test time compute不是未来常态。

专家指出Test time compute在未来不会成为常态，其成本高且涉及延迟，可能有更好的方法解决准确性问题。

关键观点5: 模型架构和尺寸的变化将深刻改变AI硬件要求。

专家提到模型架构和尺寸的根本性变化将深刻改变AI硬件需求，使AI不仅局限于数据中心，还广泛应用于端侧。

关键观点6: 分布式计算和边缘计算兴起。

分布式计算是未来趋势，能根据问题的复杂性、性质进行拆分查询，解决计算能力方面的挑战。边缘计算的兴起势在必行。

关键观点7: 网络面临的挑战和未来发展趋势。

网络面临高速和低延迟问题的挑战。生态参与者认同开放连接协议、随时间改进是未来的趋势。

关键观点8: 中国AI芯片的突破口和AI芯片厂商三大阵营。

由于前沿半导体出口限制，中国AI芯片计算密度较低，可采用横向扩展方法。AI芯片厂商三大阵营包括英伟达GPU、CSP+博通/Marvell的自制ASIC、新兴AI芯片设计厂商。

文章预览

关于博通ASIC大卫星、Ilya的“预训练放缓”论，有一篇纪要特别适合当下的讨论。专家是著名“硅仙人” Jim Keller目前AI芯片创业公司的一名技术Lead，本人有17年AI芯片、自动驾驶、机器人等研发经验。有很多非共识的观点，比如o1不是最佳路线、GPU的短板等等（以下仅代表专家个人观点，不代表xxpq观点） 1. 专家也认为模型性能提升趋于平稳，确实看到了收益递减的情况。但同时创新还在发生，比如通过模型架构及压缩方式的改变、硬件的创新、更好的数据集（扩充和质量提升），来触发下一轮性能提升。英伟达和各种AI芯片创新公司将推动硬件创新，Mistral 和 Falcon Mamba 架构等正在对 Transformer 架构发起挑战，同时其他模型架构改进也正在进行中。（xxpq：我之前提过一家华人做的all in RL的公司，他们最近炙手可热...） 2. 由于训练成本越来越 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博