专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

LLM领域首次实现量化推理自由!字节开源ABQ-LLM,效果和性能双SOTA

PaperWeekly  · 公众号  · 科研  · 2024-09-23 21:47

文章预览

©PaperWeekly 原创 · 作者 | 刘松伟 单位 |  字节跳动 研究方向 |  大模型推理/模型优化,MLsys 文章地址: https://arxiv.org/abs/2408.08554 项目地址: https://github.com/bytedance/ABQ-LLM 作者单位: 字节跳动-智能创作-ByteNN ABQ-LLM 是面向 AIGC 领域的算法系统协同优化工作,旨在解决 LLM 量化中存在的两大主要挑战: 1. 低位量化致使的效果严重降低; 2. 主流 GPU 对整数矩阵乘支持有限所引发的计算效率低下问题。 在推理引擎层面,我们基于二值化矩阵乘(BTC)等价重构了任意精度组合的矩阵乘,从而突破了 INT4/INT8 计算单元的限制,开创性地实现了任意比特量化组合的直接加速,结合深度工程优化,实现了 decoding 阶段对 cutlass/cublas 加速库的大幅性能领先。 在算法方面,我们运用了基于 transformer block 的分布纠正和低比特位平衡策略,有效提升低位量化效果。我们在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览