今天看啥  ›  专栏  ›  人工智能前沿讲习

Falcon Mamba 第一个具有竞争力的无注意7B语言模型 !

人工智能前沿讲习  · 公众号  ·  · 2024-10-25 18:00
    

文章预览

点击下方卡片,关注 「AI视界引擎」 公众号 ( 添加时备注:方向+学校/公司+昵称/姓名 ) 在本技术报告中,作者提出了Falcon Mamba 7B,一种基于新颖Mamba架构的新一代大型语言模型。Falcon Mamba 7B在5.8万亿个 Token 上进行训练,这些 Token 是通过精心选择的数据混合物得到的。 作为纯Mamba架构的模型,Falcon Mamba 7B在基于 Transformer 的开源权重模型中超越了 Mistral 7B,Llama3.1 8B,和Falcon2 11B。 它的性能与Gemma 7B相当,并在不同的架构设计模型(如RecurrentGemma 9B和RWKV-v6 Finch 7B/14B)中表现出色。 目前,Falcon Mamba 7B是文献中在这个规模上表现最好的Mamba模型,超越了现有的Mamba和混合Mamba-Transformer模型,根据Open LLM Leaderboard(Fourrier等,2024)。由于其架构,Falcon Mamba 7B在推理方面显著 faster,且需要更少的内存进行长序列生成。 尽管最近的研究表明,混合Mamba-Transformer模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览