专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!

新智元  · 公众号  · AI  · 2024-08-28 12:51
    

主要观点总结

新智元报道了关于Cerebras公司推出的人工智能推理架构Cerebras Inference的信息。该架构极大地提高了人工智能模型的推理速度,特别是针对LLM模型。Cerebras Inference实现了以每秒超过一千个token的速度进行推理,远超英伟达GPU和其他平台的速度。这主要得益于Cerebras的自研芯片技术,尤其是世界上最大的芯片之一WSE-3。此外,Cerebras Inference确保了推理过程中的高精度和出色的性价比。同时,开发者可以通过聊天平台和API访问体验。

关键观点总结

关键观点1: Cerebras Inference实现了惊人的推理速度

Cerebras Inference能够以每秒超过一千个token的速度进行推理,远超英伟达GPU和其他平台的速度。这对于大型语言模型(LLM)来说尤其重要。

关键观点2: Cerebras采用了自研的世界上最大的芯片之一WSE-3

WSE-3芯片具有巨大的内存和高速的内存带宽,能够解决内存带宽瓶颈问题,从而实现高速推理。

关键观点3: Cerebras Inference确保了推理过程中的高精度

与一些公司减少模型权重精度以提高推理速度的方法不同,Cerebras Inference保持了原始的16位权重,确保了高准确率。

关键观点4: Cerebras Inference具有出色的性价比

Cerebras Inference提供了最佳的性能、速度、精度和成本组合。它的定价远低于其他平台,而且每天为开发者提供免费的token。

关键观点5: 快速推理对于复杂AI工作流程的实现至关重要

快速推理能够实现更为复杂的AI工作流程,提高AI模型的智能性,而无需额外训练。


文章预览

   新智元报道   编辑:桃子 好困 【新智元导读】 LLM若以每秒1000+token高速推理,当前最先进的GPU根本无法实现!Cerebras Inference一出世,推理速度赶超英伟达GPU,背靠自研的世界最大芯片加持。而且,还将推理价格打了下来。 LLM若想高速推理,现如今,连GPU都无法满足了? 曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。 运行Llama3.1 8B时,它能以1800 token/s的速率吐出文字。 不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。 如下图右所示,以往,微调版Llama3.1 8B推理速度为90 token/s,清晰可见每行文字。 而现在,直接从90 token/s跃升到1800 token/s,相当于从拨号上网迈入了带宽时代。 左边Cerebras Inference下模型的推理速度,只能用「瞬间」、「疯狂」两字形容。 这是什么 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览