专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了

PaperWeekly  · 公众号  · 科研  · 2024-08-11 22:15

文章预览

©作者 |  模型工具链团队 来源 |  量子位 QbitAI 单卡搞定 Llama 3.1(405B),最新大模型压缩工具来了!  最近 Llama-3.1 登上开源顶峰,但其最强的 405B 版本模型 900 多 GB 的内存需求,对资源构成了更加苛刻的挑战。  北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准 LLMC,能很好解决这一问题。 它使得一张 80G A100 即可完成 Llama 3.1 405B 的校准和评估,从而实现以超低成本进行量化。 它支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。 论文标题: LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit 论文地址: https://arxiv.org/abs/2405.06001 工具地址: https://github.com/ModelTC/llmc Llama 3.1 更大也更难压缩 低比特量化是解决资源受限问题的通用技术之一。为此,相关研究人员运用了 LLMC 对 Llama 3.1 进行了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览