专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
今天看啥  ›  专栏  ›  AI科技大本营

LLM领域首次实现量化推理自由,效果和性能双SOTA!字节开源ABQ-LLM

AI科技大本营  · 公众号  ·  · 2024-09-19 16:25
    

文章预览

字节开源的 ABQ-LLM (项目地址:https://github.com/bytedance/ABQ-LLM)是面向 AIGC 领域的算法系统协同优化工作,旨在解决 LLM 量化中存在的两大主要挑战: 低位量化致使的效果严重降低; 主流 GPU 对整数矩阵乘支持有限所引发的计算效率低下问题。 在推理引擎层面,ABQ-LLM 基于二值化矩阵乘(BTC) 等价重构了任意精度组合的矩阵乘,从而突破了 INT4/INT8 计算单元的限制,开创性地实现了任意比特量化组合的直接加速,结合深度工程优化,实现了 decoding 阶段对 cutlass/cublas 加速库的大幅性能领先。在算法方面,ABQ-LLM 运用了基于 transformer block 的分布纠正和低比特位平衡策略,有效提升低位量化效果。在各类量化配置下均达成了 SOTA 的效果,综合模型效果优于 OmniQuant、AffineQuant 等前期工作,同时工程实现大幅超越 SmoothQuant,端到端综合性能超越 SmoothQuant 实现了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览