注册
登录
专栏名称:
PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
募格学术
·
科技部:对短期内发表多篇论文的,开展实证核验!
·
昨天
募格学术
·
暴跌50万!2025考研人数,大跳水!
·
昨天
弗雷赛斯
·
优秀国自然技术路线图分享和制作
·
3 天前
募格学术
·
高校引才!厦门某民办院校公开招聘科研与学科处处长
·
3 天前
今天看啥
›
专栏
›
PaperWeekly
LLM领域首次实现量化推理自由!字节开源ABQ-LLM,效果和性能双SOTA
PaperWeekly
·
公众号
·
科研
· 2024-09-23 21:47
文章预览
©PaperWeekly 原创 · 作者 | 刘松伟 单位 | 字节跳动 研究方向 | 大模型推理/模型优化,MLsys 文章地址: https://arxiv.org/abs/2408.08554 项目地址: https://github.com/bytedance/ABQ-LLM 作者单位: 字节跳动-智能创作-ByteNN ABQ-LLM 是面向 AIGC 领域的算法系统协同优化工作,旨在解决 LLM 量化中存在的两大主要挑战: 1. 低位量化致使的效果严重降低; 2. 主流 GPU 对整数矩阵乘支持有限所引发的计算效率低下问题。 在推理引擎层面,我们基于二值化矩阵乘(BTC)等价重构了任意精度组合的矩阵乘,从而突破了 INT4/INT8 计算单元的限制,开创性地实现了任意比特量化组合的直接加速,结合深度工程优化,实现了 decoding 阶段对 cutlass/cublas 加速库的大幅性能领先。 在算法方面,我们运用了基于 transformer block 的分布纠正和低比特位平衡策略,有效提升低位量化效果。我们在 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
募格学术
·
科技部:对短期内发表多篇论文的,开展实证核验!
昨天
募格学术
·
暴跌50万!2025考研人数,大跳水!
昨天
弗雷赛斯
·
优秀国自然技术路线图分享和制作
3 天前
募格学术
·
高校引才!厦门某民办院校公开招聘科研与学科处处长
3 天前
中国基金报
·
潘功胜最新发声!
3 月前
李大霄
·
建议减免红利税#我的微博日常##中秋节##中秋节快乐##热门视频-20240917153124
2 月前