今天看啥  ›  专栏  ›  机器学习研究组订阅

GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!

机器学习研究组订阅  · 公众号  · AI  · 2024-08-28 18:29

文章预览

LLM若想高速推理,现如今,连GPU都无法满足了? 曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。 运行Llama3.1 8B时,它能以1800 token/s的速率吐出文字。 不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。 如下图右所示,以往,微调版Llama3.1 8B推理速度为90 token/s,清晰可见每行文字。 而现在,直接从90 token/s跃升到1800 token/s,相当于从拨号上网迈入了带宽时代。 左边Cerebras Inference下模型的推理速度,只能用「瞬间」、「疯狂」两字形容。 ,时长 00:19 这是什么概念? 比起英伟达GPU,Cerebras Inference的推理速度快20倍,还要比专用Groq芯片还要快2.4倍。 另外,对于70B参数的Llama3.1,可达到450 token/s及时响应。 值得一提的是,Cerebras并没有因为提高LLM的速度,而损失其精度。 测试 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览