模型推理速度狂飙 20 倍，又有一家公司想赶超英伟达

Founder Park · 公众号 · AI 科技自媒体 · 2024-08-28 21:12

主要观点总结

文章介绍了Cerebras公司推出的全球最快的AI推理架构Cerebras Inference，以及其使用的第三代芯片Wafer Scale Engine。Cerebras Inference能够实现高速推理，解决GPU内存带宽瓶颈问题，挑战英伟达在AI芯片市场的地位。文章还介绍了Cerebras与Groq的竞争情况，以及Cerebras绕开英伟达CUDA编程环境限制的策略。

关键观点总结

关键观点1: Cerebras Inference实现了全球最快的AI推理速度，性能远超英伟达GPU和Groq芯片。

通过使用SRAM，Cerebras Inference能够以极高的速率进行AI推理，解决了大模型推理时的内存带宽瓶颈问题。

关键观点2: Cerebras使用了自研的第三代芯片Wafer Scale Engine，实现了高速推理。

Wafer Scale Engine芯片具有强大的计算能力和内存带宽，支持大规模部署，具有极高的成本效益。

关键观点3: Groq芯片与Cerebras有相似之处，但Cerebras的性能优势更为明显。

Groq的架构依赖于确定的计算策略和高密度的SRAM，而Cerebras则通过创新的技术实现了更高的性能和更大的内存带宽。

关键观点4: Cerebras绕开了英伟达CUDA编程环境的限制，提供了更易于使用的推理服务。

通过支持PyTorch等高级框架和提供软件开发工具包，Cerebras使开发人员更容易使用其WSE，无需学习新的低级编程模型。此外，通过提供与OpenAI兼容的API，Cerebras使开发人员能够轻松整合其推理产品。

文章预览

曾造出世界最大芯片公司 Cerebras，发布了全球最快的 AI 推理架构——Cerebras Inference。运行 Llama3.1 8B 时，它能以 1800 token/s 的速率吐出文字。自推出了使用一整个晶圆制造的芯片以来，Cerebras 在过去几年里的宣传，都是以攻进英伟达所把持的 AI 芯片市场为目标。以下文章转载自「新智元」和「半导体行业观察」，Founder Park 略有调整。点击关注，每天更新深度 AI 行业洞察 01 「全球最快」AI 推理服务据首席执行官 Andrew Feldman 介绍，新的 AI 推理架构——Cerebras Inference。通过使用 SRAM，在以 16 位精度运行 Llama 3.1 8B 时每秒能够生成 1,800 个以上的 token，而性能最高的 H100 实例每秒最多可生成 242 个 token。不论是总结文档，还是代码生成等任务，响应几乎一闪而过，快到让你不敢相信自己的眼睛。如下图右所示，以往，微调版 Llama3.1 8B 推理速度为 90 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博