每秒2100tokens，当GenAI模型架构基本固定后，推理的软硬件优化就开始加速了

数字游牧日常 · 公众号 · · 2024-10-27 11:22

文章预览

八月底，Cerebras公布了又一个创纪录的模型推理速度纪录：LlaMa-3.1-70B达到450tokens/s，远超各个云平台的速度，也超过了之前的第一Groq。来源：cerebras.ai 这几天，Cerebras官网再次公布了更惊人的纪录：2100tokens/s，一个多月时间又提高了约4倍。来源：cerebras.ai 当然，最近一个多月的这一次4倍多提升，更大可能性是并联带来的，而并没有对基础的软硬件做太多改动。这种推理性能的大幅提升当然来自于软硬件的共同优化。不过，抛开复杂的技术细节（芯片方面的知识很多我而言也是盲区），核心是两点：1、使用带宽更高的SRAM（大概是Blackwell使用的HBM的8TB/S的十倍）；2、“不惜成本”地将单waver的SRAM容量做到44GB。前一点，是Groq首创，之前还引起过巨大的轰动。因为虽然SRAM相比DRAM可以做到高得多的带宽，但是带来的是更高的成本上升。粗略计算，同 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博