3天把Llama训成Mamba！

机器学习实验室 · 公众号 · · 2024-09-06 16:16

文章预览

转自：新智元先来看一张其乐融融的图片（一眼AI）：右边的小羊驼代表Llama，而左边的蛇（Mamba）也是我们的老熟人了。至于到底能不能其乐融融，咱就不管了，之所以有此场景，是因为Mamba方面又搞出了有意思的研究： ——如何把Llama变成Mamba？论文地址：https://arxiv.org/pdf/2408.15237 代码地址：https://github.com/jxiw/MambaInLlama 近日，来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作，将Llama这样的大型Transformer提炼成了Mamba模型，并且成功在Mamba架构上应用了带有硬件感知的推测解码算法，提高了整个模型的推理速度。为什么要把Llama变成Mamba？因为从头开始训练一个大模型太贵了。 Mamba也火了这么长时间了，相关的研究每天都有，但自己训练大尺寸Mamba模型的却很少。目前比较有名的是AI21的Jamba（进化到了1.5版本，最大398B，MoE），以及NVI ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博