文章预览
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~ 摘要 对于一个30亿参数的LLM,一个带有16个IBM AIU NorthPole处理器的研究原型推理设备提供了巨大的28,356token/秒的系统吞吐量和低于1 ms /token(每用户)延迟,而16个NorthPole卡在一个紧凑的2U外形上仅消耗672 W。专注于低延迟和高能效,当NorthPole (12 nm)与一套GPU (7 / 5 / 4 nm)在各种功耗下进行比较时,在最低的GPU延迟下,NorthPole提供72.7个更好的能效指标(token/s/ W),同时提供更好的延迟。 介绍 大型语言模型(LLMs)已经在不同的AI任务中取得了显著的性能基准,例如通过提供代码建议来协助编程,在标准化测试中表现出色,以及帮助文章,博客,图像和视频的内容创建。 在LLMs的大规模部署中,特别是在人工智能的大规模部署中,出现了两个主要且相互冲突的挑战,即:能源消耗和响应延迟。 首先,由于LLM在训练和
………………………………