IntactKV：保持关键词元无损的大语言模型量化方法

深度学习与NLP · 公众号 · · 2024-08-24 00:00

文章预览

原文：https://zhuanlan.zhihu.com/p/699818141 本文介绍我们针对大语言模型量化的工作 IntactKV，可以作为插件有效提升GPTQ、AWQ、QuaRot等现有主流量化方法效果。论文作者来自清华大学、华为诺亚、中科院自动化所和香港中文大学。论文代码已经开源，欢迎大家使用！论文链接： https://arxiv.org/abs/2403.01241 开源代码：https://github.com/ruikangliu/IntactKV 大语言模型（LLM）在自然语言处理的各项任务上都取得了出色的表现，但其庞大的参数量也给实际部署带来了新的挑战。模型量化是一种常用的模型压缩方法，可以通过将模型权重和激活值压缩到低比特来有效降低模型推理时的算力和内存开销，然而量化往往伴随着模型的精度损失。对此，我们提出了一种新的量化方法IntactKV。我们发现LLM中存在关键词元（pivot tokens），这些关键词元的表征上存在极大的离群值，这会 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博