今天看啥  ›  专栏  ›  机器学习研究组订阅

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

机器学习研究组订阅  · 公众号  · AI  · 2024-10-24 21:04
    

文章预览

除了不断增加语言模型的尺寸来提升性能外,小语言模型(SLM)赛道也是越来越卷,研究人员在保证输出质量尽量不变的情况下,不断降低模型尺寸,减少内存占用量,提升推理效率,从而能够在各种边缘计算设备和消费级GPU上部署使用。 最近,Zyphra发布Zamba2-7B模型,在质量和性能上都优于Mistral、Google的Gemma和Meta的Llama3系列同尺寸小语言模型;在推理效率上,与 Llama3-8B 等模型相比,第一个token的时间缩短了 25%,每秒token数量提高了 20%,并且内存使用量显着减少。 Instruct下载链接:https://huggingface.co/Zyphra/Zamba2-7B-Instruct base下载链接:https://huggingface.co/Zyphra/Zamba2-7B 相对于上一代Zamba1-7B,新模型在架构上的改进包括: 1. 把Mamba1块已替换为Mamba2块; 2. 把单个共享注意力块增加为两个共享注意力块,在整个网络中以 ABAB 模式交错排列,增强了网络对信息 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览