论文精读 - SmoothQuant 量化算法

oldpan博客 · 公众号 · · 2024-06-11 10:50

文章预览

来自木之初链接 https://zhuanlan.zhihu.com/p/687030985 SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models 代码地址：https://github.com/mit-han-lab/smoothquant 作者讲解视频：https://www.youtube.com/watch?v=U0yvqjdMfr0 落地情况：2023年已被NVIDIA TensorRT-LLM 以及 Intel Neural-Compressor 集成多说一句，一个方案是否有效的一个强力证明就是-是否被大厂所使用。所以当我们想知道一个方案的价值时，不妨了解下是否被大厂集成。摘要 ① 研究背景：大模型具备出色的性能，但是属于内存、计算密集型操作。而量化可以减少内存占用，提升推理效率。但是鱼与熊掌不可兼得，现有的量化方法很难兼顾效率与效果。本文就是为了解决这一问题，实现“小孩子才做选择题，鱼与熊掌我都要”的目标。 ② 提出的方案：SmoothQuant - 一种支持W8A8、无需训练、性能不降、通用（ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博