文章预览
本文背景来自于这周的几个消息: 当前大模型在FrontierMath评测中全体落败 The Information 的一篇评论和某个lab在更长的训练和更多的数据后遇到一堵未曾预料的墙 TSMC的一些关于7nm的消息, 国产GPU怎么办 那么对于未来模型和基础设施的演进, 我们有那些办法呢? 其实每个人都在盲人摸象, 国内外都极少有从算法开始到各种芯片架构约束,再到全局平衡取舍来协同分析, 做算法的对于GPU的微架构了解不够,只是简单的归纳总结一个ScalingLaw, 做GPU算子通信优化的对于最底层的计算和通信芯片之间的协同和干扰能够解决的办法有限, 而做芯片的通常只会在自己的领域做到最优,而其实从全局的视角有更多的可以让算法平衡取舍的点..... 那么先谈谈算法, 再来谈谈在芯片工艺约束下的互联,以及以太网ScaleUP为什么是必须要做的事情. 渣B一直讲你可以在这里看到未来5~6年
………………………………