专栏名称: 芯师爷

最及时且有深度的半导体新媒体。每日解读半导体科技最新资讯、发展趋势、技术前沿信息，分享产业研究报告，并打造中国最大的半导体社群与生态圈，欢迎加入半导体专业人士的圈子！旗下媒体：今日芯闻、全球物联网观察、机器人文明。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

这家公司的芯片推理速度比英伟达快20倍，为什么？

芯师爷 · 公众号 · · 2024-09-13 19:32

文章预览

作者 | 曹士圯腾讯研究院研究员来源 | 腾讯研究院我们平常使用 AI工具时，已经习惯了它们逐字逐词往外“蹦”的“讲话”方式，好像也没太注意到这些基于大模型的AI 工具，往往需要数十秒才能得到一个完整回答。好在大模型加速推理芯片的发展，正在通过另一种全新的芯片架构，解决时延的问题。当人机交互速度能提升到原来的几十倍，你能想象又有哪些全新的人机交互场景会出现在我们面前吗？ 2024 年 8 月 28 日，美国 AI 芯片独角兽公司 Cerebras 发布了名为 Cerebras Inference 的加速推理服务。基于其独创的 Wafer-Scale 引擎，该服务在 Llama 3.1 7B 和 70B 模型上分别实现了 1800 token/s 和 450 token/s 的超快推理速度。与市面上用英伟达 GPU 构建集群的主流推理厂商相比，Cerebras Inference 取得了 20 倍以上的速度提升，为大模型推理树立了新的速度标准。这一 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

ZOL中关村在线 · 2024全球手机销量公布，这次谁赢麻了？

7 小时前

ZOL中关村在线 · 都在憋大招！到底哪家旗舰最值得期待？

昨天

EETOP · 用加密数据进行计算的芯片即将问世

昨天

电脑吧评测室 · 【2025年2月】2月装机走向与推荐（市场分析部分/总第106期）

2 天前

电脑吧评测室 · 【2025年2月】2月装机走向与推荐（市场分析部分/总第106期）

2 天前

ZOL中关村在线 · 网咖玩家终于也吃上好东西了！雷柏ESK750-98游戏键盘深度评测

3 天前

棕榈大道本科申请 · 宾大、芝大等多所招生官集体喊话：这11个文书雷区，千万别碰！

5 月前

有意思报告 · 年轻人为什么不吃卤味了？

3 月前

深圳市进出口商会 · 会员单位招聘 | 深圳民爆光电股份有限公司

2 月前

环球通信 · 新春出行｜一人全球通，全家享礼遇

4 周前