文章预览
BiLLM团队 发自 凹非寺 量子位 | 公众号 QbitAI 极限量化, 把每个参数占用空间压缩到1.1bit ! IEEE Spectrum专栏,一种名为 BiLLM 的训练后量化 (PTQ) 方法火了。 通俗来讲,随着LLM参数规模越来越大,模型计算的内存和资源也面临着更大的挑战。 如何 把模型变得小巧经济实惠,能塞进手机等设备中? BiLLM解决的正是这样的一个问题。它使用1bit来近似网络中的大多数参数,使用2bit来表示一些对性能最有影响的权重。 实验测试中,研究人员对OPT模型、Llama系列进行了二值化。 在OPT模型家族上,BiLLM以1.1bit的平均权重大小实现了目前最极限的LLM训练后压缩;在Llama系列模型上,BiLLM在1.08bit下的表现甚至超过了使用全精度的OPT-66B模型。 效率方面,BiLLM能够在单个GPU上半小时内完成7B LLM的二值化。 BiLLM发布当天,便引发了网友对大模型优化的热议,有网友就表
………………………………