注册登录

专栏名称: 半导体行业观察

最有深度的半导体新媒体，实时、专业、原创、深度，60万半导体精英关注！专注观察全球半导体最新资讯、技术前沿、发展趋势。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

算法爱好者 · 董事长十几刀刺死 ... · 7 小时前

九章算法 · 「九点热评」Meta开始帮对家无偿裁员！ · 昨天

算法与数学之美 · 35岁北大校友突破125年数学难题！网友：华 ... · 2 天前

算法与数学之美 · 人工智能时代，内容的减法是时代的需要 · 2 天前

今天看啥 › 专栏 › 半导体行业观察

又一颗芯片，挑战GPU

半导体行业观察 · 公众号 · · 2024-10-04 11:06

文章预览

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~ 摘要对于一个30亿参数的LLM，一个带有16个IBM AIU NorthPole处理器的研究原型推理设备提供了巨大的28,356token/秒的系统吞吐量和低于1 ms /token(每用户)延迟，而16个NorthPole卡在一个紧凑的2U外形上仅消耗672 W。专注于低延迟和高能效，当NorthPole (12 nm)与一套GPU (7 / 5 / 4 nm)在各种功耗下进行比较时，在最低的GPU延迟下，NorthPole提供72.7个更好的能效指标(token/s/ W)，同时提供更好的延迟。介绍大型语言模型(LLMs)已经在不同的AI任务中取得了显著的性能基准，例如通过提供代码建议来协助编程，在标准化测试中表现出色，以及帮助文章，博客，图像和视频的内容创建。在LLMs的大规模部署中，特别是在人工智能的大规模部署中，出现了两个主要且相互冲突的挑战，即：能源消耗和响应延迟。首先，由于LLM在训练和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

算法爱好者 · 董事长十几刀刺死 CTO：一个要“先发布后优化”，一个坚持先优化。。。

7 小时前

九章算法 · 「九点热评」Meta开始帮对家无偿裁员！

昨天

算法与数学之美 · 35岁北大校友突破125年数学难题！网友：华人数学奇迹年

2 天前

算法与数学之美 · 人工智能时代，内容的减法是时代的需要

2 天前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号