专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

单卡搞定Llama 3.1 405B,让大模型轻松瘦身!超强压缩工具包来了

量子位  · 公众号  · AI  · 2024-08-02 12:54

文章预览

模型工具链团队 投稿 量子位 | 公众号 QbitAI 单卡搞定Llama 3.1(405B),最新大模型压缩工具来了! 最近Llama-3.1登上开源顶峰,但其最强的405B版本模型900多GB的内存需求,对资源构成了 更加苛刻的挑战。 北航、商汤、南洋理工等团队联合推出的大模型压缩工具与基准 LLMC ,能很好解决这一问题。 它使得一张80G A100即可完成Llama 3.1 405B的校准和评估,从而实现以超低成本进行量化。 它支持多种压缩算法、模型和推理后端,具有强大的扩展性和全方位的评估能力。 目前,研究团队已将使用方法放在GitHub主页上,戳文末链接即可获取。 Llama3.1 更大也更难压缩 低比特量化是解决资源受限问题的通用技术之一。为此,相关研究人员运用了LLMC对Llama 3.1进行了量化压缩。 结果如表1所示,采用LLMC中的某些算法,例如QuaRot和AWQ等算法在70B和405B参数量的模型上,均 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览