文章预览
来自 木之初 链接 https://zhuanlan.zhihu.com/p/687030985 SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models 代码地址:https://github.com/mit-han-lab/smoothquant 作者讲解视频:https://www.youtube.com/watch?v=U0yvqjdMfr0 落地情况:2023年已被NVIDIA TensorRT-LLM 以及 Intel Neural-Compressor 集成 多说一句,一个方案是否有效的一个强力证明就是-是否被大厂所使用。所以当我们想知道一个方案的价值时,不妨了解下是否被大厂集成。 摘要 ① 研究背景:大模型具备出色的性能,但是属于内存、计算密集型操作。而量化可以减少内存占用,提升推理效率。但是鱼与熊掌不可兼得,现有的量化方法很难兼顾效率与效果。本文就是为了解决这一问题,实现“小孩子才做选择题,鱼与熊掌我都要”的目标。 ② 提出的方案:SmoothQuant - 一种支持W8A8、无需训练、性能不降、通用(
………………………………