直播｜Meta新工作，350M小模型，压缩部署移动端（MobileLLM, SpinQuant）性能比肩7B LLaMA-v2

智源社区助手 · 公众号 · · 2024-07-29 11:00

文章预览

报告主题：大语言模型的压缩部署（MobileLLM, SpinQuant）报告日期： 8月8日（周四）10:30-11:30 报告要点：在大语言模型不断给人们带来惊喜的同时，大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求，我们设计参数少于十亿的 LLM，称为 MobileLLM，与之前的 125M/350M 最先进技术相比，其准确率显着提高了 2.7%/4.3%。与之前的数十亿级模型相比，MobileLLM 模型系列在聊天任务中显示出显着改进，并在 API 调用任务中展示了与 LLaMA-v2 7B 接近的正确性，突出了小型模型针对常见设备上应用的的能力。近期，我们进一步研究量化大语言模型。LLM 量化的难度主要来自于网络中存在长尾分布值（outliers），我们发现旋转激活或权重矩阵有助于消除异常值并有利于量化。我们提出 Sp ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博