专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
今天看啥  ›  专栏  ›  腾讯研究院

为什么这家公司的芯片推理速度比英伟达快20倍?

腾讯研究院  · 公众号  · 科技媒体  · 2024-09-11 16:30

文章预览

曹士圯  腾讯研究院研究员 我们平常使用 AI工具时,已经习惯了它们逐字逐词往外“蹦”的“讲话”方式,好像也没太注意到这些基于大模型的AI 工具,往往需要数十秒才能得到一个完整回答。好在大模型加速推理芯片的发展,正在通过另一种全新的芯片架构,解决时延的问题。当人机交互速度能提升到原来的几十倍,你能想象又有哪些全新的人机交互场景会出现在我们面前吗? 2024 年 8 月 28 日,美国 AI 芯片独角兽公司 Cerebras 发布了名为 Cerebras Inference 的加速推理服务。基于其独创的 Wafer-Scale 引擎,该服务在 Llama 3.1 7B 和 70B 模型上分别实现了 1800 token/s 和 450 token/s 的超快推理速度。与市面上用英伟达 GPU 构建集群的主流推理厂商相比,Cerebras Inference 取得了 20 倍以上的速度提升,为大模型推理树立了新的速度标准。这一进展既为用户带来了接近 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览