PowerInfer-2：智能手机上的大语言模型快速推理

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-06-14 00:28

文章预览

24年6月来自上海交大的论文“PowerInfer-2: Fast Large Language Model Inference on a Smartphone”。 PowerInfer-2是一个专为在智能手机上高速推理大语言模型 (LLM) 而设计的框架，对于规模超出设备内存容量的模型特别有效。PowerInfer-2 的关键见解是将传统矩阵计算分解为细粒度神经元簇（cluster）计算来利用智能手机中的异构计算、内存和 I/O 资源。具体而言，PowerInfer-2 具有多形态神经元引擎，可调整 LLM 推理各个阶段的计算策略。此外，它还引入分段神经元缓存和细粒度神经元簇（cluster）-级流水线，可有效最小化和隐藏 I/O 操作造成的开销。PowerInfer-2 能够在两部智能手机上支持各种 LLM 模型，与最先进的框架相比，速度提高了 29.2 倍。值得注意的是，PowerInfer-2 是首个在智能手机上以每秒 11.68 个tokens的生成速率为 TurboSparse-Mixtral-47B 模型提供服务的系统。对于完全适 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

插座APP · 人是劝不醒的：强者自醒，弱者痛醒

2 天前

高绩效HR · 海底捞的人才策略，值得所有连锁企业参考！

3 天前

HR笔记本 · 80%的能力问题，都是态度问题！

3 天前

中国企业家杂志 · 周鸿祎：大模型走进千行百业，要从“原子弹”变成“茶叶蛋”

4 天前

人力资源分享汇 · 目前，人才管理正在撕裂。

6 天前

师妹财知道 · 花生：受多因素影响下跌，能抄底吗？

5 月前

采采 · 段子来了丨微信VS苹果大战，你选谁？

3 月前

生草字幕组 · 241025纪实72小时：福冈流动摊位的蕨饼（下载链接）

1 月前

3d tof · 激光雷达数据处理及分析

3 周前