讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

PowerInfer-2:智能手机上的大语言模型快速推理

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-14 00:28
    

文章预览

24年6月来自上海交大的论文“PowerInfer-2: Fast Large Language Model Inference on a Smartphone”。 PowerInfer-2是一个专为在智能手机上高速推理大语言模型 (LLM) 而设计的框架,对于规模超出设备内存容量的模型特别有效。PowerInfer-2 的关键见解是将传统矩阵计算分解为细粒度神经元簇(cluster)计算来利用智能手机中的异构计算、内存和 I/O 资源。具体而言,PowerInfer-2 具有多形态神经元引擎,可调整 LLM 推理各个阶段的计算策略。此外,它还引入分段神经元缓存和细粒度神经元簇(cluster)-级流水线,可有效最小化和隐藏 I/O 操作造成的开销。PowerInfer-2 能够在两部智能手机上支持各种 LLM 模型,与最先进的框架相比,速度提高了 29.2 倍。值得注意的是,PowerInfer-2 是首个在智能手机上以每秒 11.68 个tokens的生成速率为 TurboSparse-Mixtral-47B 模型提供服务的系统。对于完全适 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览