今天看啥  ›  专栏  ›  道明数字游牧生活

每秒2100tokens,当GenAI模型架构基本固定后,推理的软硬件优化就开始加速了

道明数字游牧生活  · 公众号  ·  · 2024-10-27 11:22

文章预览

八月底,Cerebras公布了又一个创纪录的模型推理速度纪录:LlaMa-3.1-70B达到450tokens/s,远超各个云平台的速度,也超过了之前的第一Groq。 来源:cerebras.ai 这几天,Cerebras官网再次公布了更惊人的纪录:2100tokens/s,一个多月时间又提高了约4倍。 来源:cerebras.ai 当然,最近一个多月的这一次4倍多提升,更大可能性是并联带来的,而并没有对基础的软硬件做太多改动。 这种推理性能的大幅提升当然来自于软硬件的共同优化。不过,抛开复杂的技术细节(芯片方面的知识很多我而言也是盲区),核心是两点:1、使用带宽更高的SRAM(大概是Blackwell使用的HBM的8TB/S的十倍);2、“不惜成本”地将单waver的SRAM容量做到44GB。 前一点,是Groq首创,之前还引起过巨大的轰动。因为虽然SRAM相比DRAM可以做到高得多的带宽,但是带来的是更高的成本上升。粗略计算,同 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览