注册
登录
专栏名称:
芯师爷
最及时且有深度的半导体新媒体。每日解读半导体科技最新资讯、发展趋势、技术前沿信息,分享产业研究报告,并打造中国最大的半导体社群与生态圈,欢迎加入半导体专业人士的圈子!旗下媒体:今日芯闻、全球物联网观察、机器人文明。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
龙说天下
·
台海如果开打,美国陆军也要来“凑热闹”?
·
8 小时前
军武次位面
·
每日囧图丨还好带了伞包,不然人没了!
·
5 天前
今天看啥
›
专栏
›
芯师爷
这家公司的芯片推理速度比英伟达快20倍,为什么?
芯师爷
·
公众号
· · 2024-09-13 19:32
文章预览
作者 | 曹士圯 腾讯研究院研究员 来源 | 腾讯研究院 我们平常使用 AI工具时,已经习惯了它们逐字逐词往外“蹦”的“讲话”方式,好像也没太注意到这些基于大模型的AI 工具,往往需要数十秒才能得到一个完整回答。好在大模型加速推理芯片的发展,正在通过另一种全新的芯片架构,解决时延的问题。当人机交互速度能提升到原来的几十倍,你能想象又有哪些全新的人机交互场景会出现在我们面前吗? 2024 年 8 月 28 日,美国 AI 芯片独角兽公司 Cerebras 发布了名为 Cerebras Inference 的加速推理服务。基于其独创的 Wafer-Scale 引擎,该服务在 Llama 3.1 7B 和 70B 模型上分别实现了 1800 token/s 和 450 token/s 的超快推理速度。与市面上用英伟达 GPU 构建集群的主流推理厂商相比,Cerebras Inference 取得了 20 倍以上的速度提升,为大模型推理树立了新的速度标准。这一 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
龙说天下
·
台海如果开打,美国陆军也要来“凑热闹”?
8 小时前
军武次位面
·
每日囧图丨还好带了伞包,不然人没了!
5 天前
FDA食安云
·
进群——食品安全专业群!
4 月前
CG世界
·
如何制作大漠东升旭日
2 月前