今天看啥  ›  专栏  ›  智源社区助手

直播|​Meta新工作,350M小模型,压缩部署移动端(MobileLLM, SpinQuant)性能比肩7B LLaMA-v2

智源社区助手  · 公众号  ·  · 2024-07-29 11:00

文章预览

报告主题: 大语言模型的压缩部署 (MobileLLM, SpinQuant) 报告日期: 8月8日(周四)10:30-11:30 报告要点: 在大语言模型不断给人们带来惊喜的同时,大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求,我们设计参数少于十亿的 LLM,称为 MobileLLM,与之前的 125M/350M 最先进技术相比,其准确率显着提高了 2.7%/4.3%。与之前的数十亿级模型相比,MobileLLM 模型系列在聊天任务中显示出显着改进,并在 API 调用任务中展示了与 LLaMA-v2 7B 接近的正确性,突出了小型模型针对常见设备上应用的的能力。近期,我们进一步研究量化大语言模型。LLM 量化的难度主要来自于网络中存在长尾分布值(outliers),我们发现旋转激活或权重矩阵有助于消除异常值并有利于量化。我们提出 Sp ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览