专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

微软开源爆火1.58bit大模型推理框架!千亿参数模型量化后单CPU可跑,速度每秒5-7个token

量子位  · 公众号  · AI  · 2024-10-22 17:56
    

文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI 微软 开源 1 bit大模型推理框架! 现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。 比如在 苹果M2 新品上运行BitNet b1.58 3B模型,be like: 就是今年爆火论文 The Era of 1-bit LLMs 的官方代码实现,开源不到一周GitHub已揽获 7.9k Star 。 传统大模型参数以16位浮点数 (如FP16或BF16) 形式的存储,而BitNet b1.58将其统统变成了 三进制 ,也就是  {-1, 0, 1} 。 这里的“1.58 bit”指每个参数可以用1.58位的信息来表示。 转换之后, 矩阵中的计算 就只会涉及到 加法 ,因此会让大模型在保持一定精度的同时,显著减少所需的存储空间和计算资源,也显著提升了在本地设备上运行LLM的可能性。 这个项目开源后,在X上也受到了一波高度关注。 千亿参数模型量化后单CPU可跑 bitnet.cpp 是1bit LLM (例如 BitNet b1.58) 的官方推理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览