GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

机器学习研究组订阅 · 公众号 · AI · 2024-08-28 18:29

文章预览

LLM若想高速推理，现如今，连GPU都无法满足了？曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。运行Llama3.1 8B时，它能以1800 token/s的速率吐出文字。不论是总结文档，还是代码生成等任务，响应几乎一闪而过，快到让你不敢相信自己的眼睛。如下图右所示，以往，微调版Llama3.1 8B推理速度为90 token/s，清晰可见每行文字。而现在，直接从90 token/s跃升到1800 token/s，相当于从拨号上网迈入了带宽时代。左边Cerebras Inference下模型的推理速度，只能用「瞬间」、「疯狂」两字形容。，时长 00:19 这是什么概念？比起英伟达GPU，Cerebras Inference的推理速度快20倍，还要比专用Groq芯片还要快2.4倍。另外，对于70B参数的Llama3.1，可达到450 token/s及时响应。值得一提的是，Cerebras并没有因为提高LLM的速度，而损失其精度。测试 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · //@爱可可-爱生活：欢迎参与～-20241125073552

15 小时前

爱可可-爱生活 · 【AI前沿：破解大模型的记忆与推理之谜】本期节目深入浅出地解读了-20241125100331

13 小时前

爱可可-爱生活 · 【bomoto：一个专业的人体模型工具包，用于对网格进行人体模型-20241124165430

昨天

爱可可-爱生活 · 晚安～ #晚安# -20241123230805

2 天前

黄建同学 · #起猛了看到我的手机在自动点咖啡##ai# 斯坦福研究人员新突破-20241123153504

2 天前

眸娱 · 《绝区零》开服就爆了，曾登顶99个免费榜，米哈游下一个原神？

4 月前