专栏名称: 芯师爷
最及时且有深度的半导体新媒体。每日解读半导体科技最新资讯、发展趋势、技术前沿信息,分享产业研究报告,并打造中国最大的半导体社群与生态圈,欢迎加入半导体专业人士的圈子!旗下媒体:今日芯闻、全球物联网观察、机器人文明。
今天看啥  ›  专栏  ›  芯师爷

这家公司的芯片推理速度比英伟达快20倍,为什么?

芯师爷  · 公众号  ·  · 2024-09-13 19:32

文章预览

作者 | 曹士圯 腾讯研究院研究员 来源 | 腾讯研究院 我们平常使用 AI工具时,已经习惯了它们逐字逐词往外“蹦”的“讲话”方式,好像也没太注意到这些基于大模型的AI 工具,往往需要数十秒才能得到一个完整回答。好在大模型加速推理芯片的发展,正在通过另一种全新的芯片架构,解决时延的问题。当人机交互速度能提升到原来的几十倍,你能想象又有哪些全新的人机交互场景会出现在我们面前吗? 2024 年 8 月 28 日,美国 AI 芯片独角兽公司 Cerebras 发布了名为 Cerebras Inference 的加速推理服务。基于其独创的 Wafer-Scale 引擎,该服务在 Llama 3.1 7B 和 70B 模型上分别实现了 1800 token/s 和 450 token/s 的超快推理速度。与市面上用英伟达 GPU 构建集群的主流推理厂商相比,Cerebras Inference 取得了 20 倍以上的速度提升,为大模型推理树立了新的速度标准。这一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览