今天看啥  ›  专栏  ›  人工智能前沿讲习

【他山之石】LIama 3+Mamba强强联手!蒸馏到线性RNN,推理速度提升1.6倍

人工智能前沿讲习  · 公众号  ·  · 2024-09-11 18:00

文章预览

“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关 注! 而且性能不减,甚至表现比原始模型还要优异。 这是来自Together AI的新作,通过蒸馏将Transformer和Mamba模型结合到了一起,同时还为混合模型涉及了推理加速算法 提出Mamba架构的大神、FlashAttention作者Tri Dao,也参与了这一项目。 Together AI创始人兼CEO表示,Transformer和Mamba的混合,是未来大模型的一大发展方向。 将Transformer蒸馏进Mamba 在蒸馏正式开始之前,需要先进行从Transformer到线性RNN的初始化。 作者观察到,Transformer的注意力机制与RNN的计算之间存在一定的相似性。 因此可以将Transformer ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览