Falcon Mamba 第一个具有竞争力的无注意7B语言模型！

人工智能前沿讲习 · 公众号 · · 2024-10-25 18:00

文章预览

点击下方卡片，关注「AI视界引擎」公众号 ( 添加时备注：方向+学校/公司+昵称/姓名 ) 在本技术报告中，作者提出了Falcon Mamba 7B，一种基于新颖Mamba架构的新一代大型语言模型。Falcon Mamba 7B在5.8万亿个 Token 上进行训练，这些 Token 是通过精心选择的数据混合物得到的。作为纯Mamba架构的模型，Falcon Mamba 7B在基于 Transformer 的开源权重模型中超越了 Mistral 7B，Llama3.1 8B，和Falcon2 11B。它的性能与Gemma 7B相当，并在不同的架构设计模型（如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B）中表现出色。目前，Falcon Mamba 7B是文献中在这个规模上表现最好的Mamba模型，超越了现有的Mamba和混合Mamba-Transformer模型，根据Open LLM Leaderboard（Fourrier等，2024）。由于其架构，Falcon Mamba 7B在推理方面显著 faster，且需要更少的内存进行长序列生成。尽管最近的研究表明，混合Mamba-Transformer模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

武志红 · 你适合什么样的生活，藏在你的MBTI里

昨天

壹心理 · 关系中最让人寒心的行为，它排第一，很多人都做过

昨天

武志红 · “我也能做咨询师吗” | 武志红联合19位大咖带你入门

2 天前

壹心理 · 取消心理咨询师证后，还有什么证书可以考？

3 天前

壹心理 · 金钱的匮乏来自于爱的匮乏

5 天前

懂壹点人情世故 · 时代在变，可是有些东西变不了，两个时代的碰撞

4 月前

爱否科技 · 【广告】爱否回收，欢迎比价

2 月前

Falcon Mamba 第一个具有竞争力的无注意7B语言模型 ！

文章预览

Falcon Mamba 第一个具有竞争力的无注意7B语言模型！