专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

高效的大模型量化感知训练方案,单卡完成70B模型QAT

PaperWeekly  · 公众号  · 科研  · 2024-10-16 12:34

文章预览

©PaperWeekly 原创 · 作者 |  陈锰钊 单位 |  香港大学,上海人工智能实验室 研究方向 |  大模型压缩与加速 本文介绍一种新型量化量化方式,EfficientQAT。大语言模型的 4-bit 量化相对来说已经较为成熟,掉点少。 近期,众多工作聚焦于推进 2-bit 量化。考虑到均匀(INT)量化的显著性能损失,近期领域内主要关注 vector 量化,例如用于 2-bit 精确量化的 AQLM [1] 和 QUIP# [2] 。但他们 [1,2] 或是引入额外不可忽略的计算开销,或是数据格式难以实现实际加速,给部署带来了诸多挑战。在 EfficentQAT 中,我们致力于突破 INT 量化的局限性。 如下图 1 所示,我们在保持 INT 量化容易落地部署的特性下,成功地使 INT 量化达到与 vector 量化相当的性能。 特别是,EfficientQAT 可以在 41 小时内在单个 A100-80GB GPU 上完成对 2-bit Llama-2-70B 模型的量化感知训练。与全精度模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览