文章预览
2024-10-25 00:55
本条微博链接
Meta 发布了 Llama 3.1 1B和3B的官方量化版本。 #ai# 提供了更小的内存占用、更快的设备推理速度、准确性和便携性。 量化模型实现了 2-4 倍的速度提升,模型大小减少了 56%,内存使用量减少了 41%。 量化技术包括 Quantization-Aware Training with LoRA 适配器和 SpinQuant,这两种方法分别优先考虑了准确性和可移植性。 模型下载:huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf
………………………………