【他山之石】LIama 3+Mamba强强联手！蒸馏到线性RNN，推理速度提升1.6倍

人工智能前沿讲习 · 公众号 · · 2024-09-11 18:00

文章预览

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！而且性能不减，甚至表现比原始模型还要优异。这是来自Together AI的新作，通过蒸馏将Transformer和Mamba模型结合到了一起，同时还为混合模型涉及了推理加速算法提出Mamba架构的大神、FlashAttention作者Tri Dao，也参与了这一项目。 Together AI创始人兼CEO表示，Transformer和Mamba的混合，是未来大模型的一大发展方向。将Transformer蒸馏进Mamba 在蒸馏正式开始之前，需要先进行从Transformer到线性RNN的初始化。作者观察到，Transformer的注意力机制与RNN的计算之间存在一定的相似性。因此可以将Transformer ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

燕梳楼 · 提醒：近期尽量不要随便网购！

昨天

燕梳楼 · 提醒：近期尽量不要随便网购！

昨天

日本万象 · 日系30+女性的羽绒服穿搭：轻便保暖又高级，优雅还减龄！

昨天

日本万象 · 日系30+女性的羽绒服穿搭：轻便保暖又高级，优雅还减龄！

昨天

加国无忧 · 16年历史终结！多伦多大型地标商店永久结业！DT时尚街区辉煌不再!

3 天前

加国无忧 · 16年历史终结！多伦多大型地标商店永久结业！DT时尚街区辉煌不再!

3 天前

PaperWeekly · 新加坡内推 | Meta推荐系统团队招聘推荐系统算法/工程岗位

2 月前