文章预览
在本技术报告中,作者提出了Falcon Mamba 7B,一种基于新颖Mamba架构的新一代大型语言模型。Falcon Mamba 7B在5.8万亿个 Token 上进行训练,这些 Token 是通过精心选择的数据混合物得到的。 作为纯Mamba架构的模型,Falcon Mamba 7B在基于 Transformer 的开源权重模型中超越了 Mistral 7B,Llama3.1 8B,和Falcon2 11B。 它的性能与Gemma 7B相当,并在不同的架构设计模型(如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B)中表现出色。 目前,Falcon Mamba 7B是文献中在这个规模上表现最好的Mamba模型,超越了现有的Mamba和混合Mamba-Transformer模型,根据Open LLM Leaderboard(Fourrier等,2024)。由于其架构,Falcon Mamba 7B在推理方面显著 faster,且需要更少的内存进行长序列生成。 尽管最近的研究表明,混合Mamba-Transformer模型优于纯架构设计,但作者证明即使纯Mamba设计也可以与Transformer和混合设计相比实现类
………………………………