专栏名称: 慢慢学 AIGC
关注 AIGC,LLM,AI infra 等方向最新资讯,欢迎高质量技术类文章投稿,商务合作可联系 Mistake113
今天看啥  ›  专栏  ›  慢慢学 AIGC

GGML 到 GGUF:语言模型文件格式的飞跃

慢慢学 AIGC  · 公众号  ·  · 2024-06-10 20:22
    

文章预览

点击下方 卡片 ,关注“ 慢慢学AIGC ” 简介 由于对大型语言模型(LLM)的高需求,实施量化已成为其高效运行的关键。这种技术似乎以减少模型权重的精度为代价,从而节省内存并加速推理,但保留了大部分模型性能。最近在 8 位和 4 位量化技术方面的进展,使LLM能够部署在消费级硬件上。加上 Llama 模型和诸如 LoRA 和 QLoRA 等 参数高效微调方法 的推出,已催生了一个多样化的 本地 LLM 生态系统 ,现在可与 OpenAI 的 GPT-3.5 和 GPT-4 相媲美。 在四种主要量化技术 NF4、GPTQ、GGML 和 GGUF 中,本文将帮助你了解并深入探讨 GGML 和 GGUF。前两种量化方法可参考前面文章《 使用 GPTQ、AWQ 和 Bitsandbytes 进行模型量化 》。 GGML 和 GGUF 代表了简化语言模型的关键一步。GGML 是一种早期尝试,旨在使模型可在常规计算机上运行,但存在局限性。GGML 是由 Georgi Gerganov(用"GG"代 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览