文章预览
字节开源的 ABQ-LLM (项目地址:https://github.com/bytedance/ABQ-LLM)是面向 AIGC 领域的算法系统协同优化工作,旨在解决 LLM 量化中存在的两大主要挑战: 低位量化致使的效果严重降低; 主流 GPU 对整数矩阵乘支持有限所引发的计算效率低下问题。 在推理引擎层面,ABQ-LLM 基于二值化矩阵乘(BTC) 等价重构了任意精度组合的矩阵乘,从而突破了 INT4/INT8 计算单元的限制,开创性地实现了任意比特量化组合的直接加速,结合深度工程优化,实现了 decoding 阶段对 cutlass/cublas 加速库的大幅性能领先。在算法方面,ABQ-LLM 运用了基于 transformer block 的分布纠正和低比特位平衡策略,有效提升低位量化效果。在各类量化配置下均达成了 SOTA 的效果,综合模型效果优于 OmniQuant、AffineQuant 等前期工作,同时工程实现大幅超越 SmoothQuant,端到端综合性能超越 SmoothQuant 实现了
………………………………