专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

新智元 · 公众号 · AI · 2024-08-28 12:51

主要观点总结

新智元报道了关于Cerebras公司推出的人工智能推理架构Cerebras Inference的信息。该架构极大地提高了人工智能模型的推理速度，特别是针对LLM模型。Cerebras Inference实现了以每秒超过一千个token的速度进行推理，远超英伟达GPU和其他平台的速度。这主要得益于Cerebras的自研芯片技术，尤其是世界上最大的芯片之一WSE-3。此外，Cerebras Inference确保了推理过程中的高精度和出色的性价比。同时，开发者可以通过聊天平台和API访问体验。

关键观点总结

关键观点1: Cerebras Inference实现了惊人的推理速度

Cerebras Inference能够以每秒超过一千个token的速度进行推理，远超英伟达GPU和其他平台的速度。这对于大型语言模型（LLM）来说尤其重要。

关键观点2: Cerebras采用了自研的世界上最大的芯片之一WSE-3

WSE-3芯片具有巨大的内存和高速的内存带宽，能够解决内存带宽瓶颈问题，从而实现高速推理。

关键观点3: Cerebras Inference确保了推理过程中的高精度

与一些公司减少模型权重精度以提高推理速度的方法不同，Cerebras Inference保持了原始的16位权重，确保了高准确率。

关键观点4: Cerebras Inference具有出色的性价比

Cerebras Inference提供了最佳的性能、速度、精度和成本组合。它的定价远低于其他平台，而且每天为开发者提供免费的token。

关键观点5: 快速推理对于复杂AI工作流程的实现至关重要

快速推理能够实现更为复杂的AI工作流程，提高AI模型的智能性，而无需额外训练。

文章预览

新智元报道编辑：桃子好困【新智元导读】 LLM若以每秒1000+token高速推理，当前最先进的GPU根本无法实现！Cerebras Inference一出世，推理速度赶超英伟达GPU，背靠自研的世界最大芯片加持。而且，还将推理价格打了下来。 LLM若想高速推理，现如今，连GPU都无法满足了？曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。运行Llama3.1 8B时，它能以1800 token/s的速率吐出文字。不论是总结文档，还是代码生成等任务，响应几乎一闪而过，快到让你不敢相信自己的眼睛。如下图右所示，以往，微调版Llama3.1 8B推理速度为90 token/s，清晰可见每行文字。而现在，直接从90 token/s跃升到1800 token/s，相当于从拨号上网迈入了带宽时代。左边Cerebras Inference下模型的推理速度，只能用「瞬间」、「疯狂」两字形容。这是什么 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博