专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

论文精读 - SmoothQuant 量化算法

oldpan博客  · 公众号  ·  · 2024-06-11 10:50
    

文章预览

来自 木之初 链接 https://zhuanlan.zhihu.com/p/687030985 SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models 代码地址:https://github.com/mit-han-lab/smoothquant 作者讲解视频:https://www.youtube.com/watch?v=U0yvqjdMfr0 落地情况:2023年已被NVIDIA TensorRT-LLM 以及 Intel Neural-Compressor 集成 多说一句,一个方案是否有效的一个强力证明就是-是否被大厂所使用。所以当我们想知道一个方案的价值时,不妨了解下是否被大厂集成。 摘要 ① 研究背景:大模型具备出色的性能,但是属于内存、计算密集型操作。而量化可以减少内存占用,提升推理效率。但是鱼与熊掌不可兼得,现有的量化方法很难兼顾效率与效果。本文就是为了解决这一问题,实现“小孩子才做选择题,鱼与熊掌我都要”的目标。 ② 提出的方案:SmoothQuant - 一种支持W8A8、无需训练、性能不降、通用( ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览