专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

3天把Llama训成Mamba,性能不降,推理更快!

新智元  · 公众号  · AI  · 2024-09-05 12:21

主要观点总结

近日,来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成Mamba模型,并设计了新的推测解码算法,加速了模型的推理。文章介绍了整个研究的过程,包括模型转换、知识蒸馏、监督微调、定向偏好优化、推测解码和硬件性质优化等。

关键观点总结

关键观点1: 研究背景

Mamba模型受到广泛关注,但训练大尺寸Mamba模型成本高昂,因此研究人员寻求通过锁住知识并将Transformer微调成Mamba模型来解决问题。

关键观点2: 模型转换

研究人员结合渐进式蒸馏、监督微调(SFT)和定向偏好优化(DPO)等方法,成功将Llama等大型Transformer模型提炼成Mamba模型。

关键观点3: 推测解码算法

由于Mamba模型的结构特性,不能直接应用Transformer的推理加速方案。因此,研究人员设计了全新的推测解码算法,并结合硬件性质实现基于Mamba的推测解码。

关键观点4: 实验结果

研究人员成功将Zephyr-7B和Llama-3 Instruct 8B等模型提炼为线性RNN模型(混合Mamba和Mamba2),性能与蒸馏前的标准模型相当。此外,通过优化算法,实现了在Ampere和H100架构的GPU上的推理加速。

关键观点5: 训练方法

研究过程采用三阶段蒸馏方法,包括使用伪标签进行知识蒸馏、监督微调以及定向偏好优化等。此外,通过融合内核和调整实现方式优化了硬件特定优化。


文章预览

   新智元报道   编辑:alan 【新智元导读】 近日,Mamba方面又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理。 先来看一张其乐融融的图片(一眼AI): 右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。 至于到底能不能其乐融融,咱就不管了,之所以有此场景,是因为Mamba方面又搞出了有意思的研究: ——如何把Llama变成Mamba? 论文地址:https://arxiv.org/pdf/2408.15237 代码地址:https://github.com/jxiw/MambaInLlama 近日,来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作,将Llama这样的大型Transformer提炼成了Mamba模型, 并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。 为什么要把Llama变成Mamba? 因 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览