Meta 发布 Llama 3.2 1B和3B版本：推理速度翻倍，模型更轻

AI工程化 · 公众号 · · 2024-10-25 08:53

文章预览

24日，Meta 发布了全新的量化版 Llama 3.2 模型1B和3B版本。该模型在推理速度上提升 2-4 倍，模型大小减少 56%，内存占用降低 41%，显著优化了性能。模型采用了先进的量化技术，包括量化感知训练（Quantization-Aware Training）和 SpinQuant 后训练量化方法。前者确保了模型精度，后者提升了便携性，两者结合，既保证了模型质量与安全性，又优化了在资源受限设备上的部署。新模型特别适用于移动设备和边缘计算。通过与 ARM 、MediaTek 和Qualcomm 等合作，已准备好在更多移动 CPU 上部署，未来还将利用 NPUs 进一步提升性能。新模型的发布为开发者提供了高效、轻量化的 AI 解决方案，将会带来边缘以及移动场景应用的发展。从最近趋势来看，端侧大模已成为了大模型发展的又一技术方向。相关阅读： Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博