专栏名称: 机器学习实验室
专注于机器学习和深度学习技术与实践。
目录
今天看啥  ›  专栏  ›  机器学习实验室

3天把Llama训成Mamba!

机器学习实验室  · 公众号  ·  · 2024-09-06 16:16

文章预览

转自:新智元 先来看一张其乐融融的图片(一眼AI): 右边的小羊驼代表Llama,而左边的蛇(Mamba)也是我们的老熟人了。 至于到底能不能其乐融融,咱就不管了,之所以有此场景,是因为Mamba方面又搞出了有意思的研究: ——如何把Llama变成Mamba? 论文地址:https://arxiv.org/pdf/2408.15237 代码地址:https://github.com/jxiw/MambaInLlama 近日,来自康奈尔、普林斯顿等机构的研究人员推出了上面这篇工作,将Llama这样的大型Transformer提炼成了Mamba模型, 并且成功在Mamba架构上应用了带有硬件感知的推测解码算法,提高了整个模型的推理速度。 为什么要把Llama变成Mamba? 因为从头开始训练一个大模型太贵了。 Mamba也火了这么长时间了,相关的研究每天都有,但自己训练大尺寸Mamba模型的却很少。 目前比较有名的是AI21的Jamba(进化到了1.5版本,最大398B,MoE),以及NVI ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览