Falcon Mamba 第一个具有竞争力的无注意7B语言模型！

arXiv每日学术速递 · 公众号 · · 2024-10-25 11:34

文章预览

在本技术报告中，作者提出了Falcon Mamba 7B，一种基于新颖Mamba架构的新一代大型语言模型。Falcon Mamba 7B在5.8万亿个 Token 上进行训练，这些 Token 是通过精心选择的数据混合物得到的。作为纯Mamba架构的模型，Falcon Mamba 7B在基于 Transformer 的开源权重模型中超越了 Mistral 7B，Llama3.1 8B，和Falcon2 11B。它的性能与Gemma 7B相当，并在不同的架构设计模型（如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B）中表现出色。目前，Falcon Mamba 7B是文献中在这个规模上表现最好的Mamba模型，超越了现有的Mamba和混合Mamba-Transformer模型，根据Open LLM Leaderboard（Fourrier等，2024）。由于其架构，Falcon Mamba 7B在推理方面显著 faster，且需要更少的内存进行长序列生成。尽管最近的研究表明，混合Mamba-Transformer模型优于纯架构设计，但作者证明即使纯Mamba设计也可以与Transformer和混合设计相比实现类 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 几篇论文实现代码：《MoE Jetpack: From Dens-20241124171610

12 小时前

阿昆的科研日常 · AI时代，我可以停更了…

19 小时前

阿昆的科研日常 · AI时代，我可以停更了…

19 小时前

蒲公英Ouryao · 六部门：扩大基层药品种类

2 天前

赛柏蓝 · 国家医保局局长表态，推进医保直接结算

1 周前

机器之心 · Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

6 天前

医药经济报 · 医药板块触底反弹的逻辑

3 月前

Falcon Mamba 第一个具有竞争力的无注意7B语言模型 ！

文章预览

Falcon Mamba 第一个具有竞争力的无注意7B语言模型！