GGML 到 GGUF：语言模型文件格式的飞跃

慢慢学 AIGC · 公众号 · · 2024-06-10 20:22

文章预览

点击下方卡片，关注“ 慢慢学AIGC ” 简介由于对大型语言模型(LLM)的高需求，实施量化已成为其高效运行的关键。这种技术似乎以减少模型权重的精度为代价，从而节省内存并加速推理，但保留了大部分模型性能。最近在 8 位和 4 位量化技术方面的进展，使LLM能够部署在消费级硬件上。加上 Llama 模型和诸如 LoRA 和 QLoRA 等参数高效微调方法的推出，已催生了一个多样化的本地 LLM 生态系统，现在可与 OpenAI 的 GPT-3.5 和 GPT-4 相媲美。在四种主要量化技术 NF4、GPTQ、GGML 和 GGUF 中，本文将帮助你了解并深入探讨 GGML 和 GGUF。前两种量化方法可参考前面文章《使用 GPTQ、AWQ 和 Bitsandbytes 进行模型量化》。 GGML 和 GGUF 代表了简化语言模型的关键一步。GGML 是一种早期尝试，旨在使模型可在常规计算机上运行，但存在局限性。GGML 是由 Georgi Gerganov(用"GG"代 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博