专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

Falcon Mamba 第一个具有竞争力的无注意7B语言模型 !

arXiv每日学术速递  · 公众号  ·  · 2024-10-25 11:34

文章预览

在本技术报告中,作者提出了Falcon Mamba 7B,一种基于新颖Mamba架构的新一代大型语言模型。Falcon Mamba 7B在5.8万亿个 Token 上进行训练,这些 Token 是通过精心选择的数据混合物得到的。 作为纯Mamba架构的模型,Falcon Mamba 7B在基于 Transformer 的开源权重模型中超越了 Mistral 7B,Llama3.1 8B,和Falcon2 11B。 它的性能与Gemma 7B相当,并在不同的架构设计模型(如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B)中表现出色。 目前,Falcon Mamba 7B是文献中在这个规模上表现最好的Mamba模型,超越了现有的Mamba和混合Mamba-Transformer模型,根据Open LLM Leaderboard(Fourrier等,2024)。由于其架构,Falcon Mamba 7B在推理方面显著 faster,且需要更少的内存进行长序列生成。 尽管最近的研究表明,混合Mamba-Transformer模型优于纯架构设计,但作者证明即使纯Mamba设计也可以与Transformer和混合设计相比实现类 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览