非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

机器学习研究组订阅 · 公众号 · AI · 2024-08-13 19:05

文章预览

Mamba 架构的大模型又一次向 Transformer 发起了挑战。 Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。今天，阿布扎比技术创新研究所（TII）发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B 。先来总结一波 Falcon Mamba 7B 的亮点：无需增加内存存储，就可以处理任意长度的序列，并且能够在单个 24GB A10 GPU 上运行。目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B，这个仅用因果解码器的模型采用了新颖的 Mamba 状态空间语言模型（State Space Language Model, SSLM）架构来处理各种文本生成任务。从结果来看，Falcon Mamba 7B 在一些基准上超越同尺寸级别的领先模型，包括 Meta 的 Llama 3 8B、Llama 3. ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

机器之心 · 和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

12 小时前

爱可可-爱生活 · 【免费书《保形预测理论基础》：一本关于基于排列测试和可交换性构建-20241125074045

18 小时前

爱可可-爱生活 · 【AI前沿：从智能合作到语言模型的最新突破】本期节目深入解析五大-20241123105313

2 天前

机器之心 · 实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

5 天前

黄建同学 · 前两天ProductHunt 上的一款无代码开发应用Momen，-20241119073702

6 天前