MNN在大模型端侧部署上的探索

大淘宝技术 · 公众号 · · 2024-11-20 18:25

文章预览

随着移动端（手机/平板等）算力、内存、磁盘空间的不断增长，在移动端部署大模型逐渐成为可能。在端侧运行大模型，可以有一系列好处：去除网络延迟，加快响应速度；降低算力成本，便于大规模应用；不需数据上传，保护用户稳私。概述为了在更广泛的设备上部署大模型，MNN团队开发了 MNN-LLM / MNN-Diffusion，合称MNN-Transformer ，支持大语言模型和文生图等AIGC模型，具有如下特性：支持各类LLM和Diffusion模型，支持加载同时加载多份Lora；不依赖厂商NPU能力，2020年后的手机基本都能跑得动 LLM 小模型。支持int4/int8等模型量化方案，并支持在内存不足时使用磁盘空间替换，避免内存溢出风险。充分利用CPU sdot / smmla 与GPU recordable / simdgroup / GMemory 等较新特性，在8Gen1芯片上，MNN-Transformer支持 1.8b 端侧模型 35 token/s 以上的解码速度，生成 512x512的图片 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

哔哩哔哩 · 60岁老妈一眼看穿麦琳最大的问题

14 小时前

哔哩哔哩 · 《再见爱人》中的“NPD人格”究竟是什么？

3 天前

哔哩哔哩 · 他用4000个小人像帮网友完成心愿

4 天前

哔哩哔哩 · 生命消逝前最后9秒的脑部影像

4 天前

哔哩哔哩 · B站开启TGA投票通道，黑神话获年度最佳提名！

6 天前

科学大院 · 2035发展战略：材料科学篇 | 一看就懂的未来科学蓝图

5 月前

CSC研究金融团队 · 【中信建投金融】银行业2024年中期策略：高股息策略深化，聚焦三大扩散方向

4 月前

晚点LatePost · 【Meta 开发 AI 搜索引擎】开发中的 $Meta(META-20241030164901

3 周前