非Transformer架构站起来了！首个纯无注意力大模型，超越开源巨头Llama 3.1

深度图学习与大模型LLM · 公众号 · · 2024-08-22 11:00

文章预览

机器之心报道编辑：杜伟、陈陈原文链接：https://mp.weixin.qq.com/s/ET9gghK4asEr5ObuW2padw Mamba 架构的大模型又一次向 Transformer 发起了挑战。 Mamba 架构模型这次终于要「站」起来了？自 2023 年 12 月首次推出以来，Mamba 便成为了 Transformer 的强有力竞争对手。此后，采用 Mamba 架构的模型不断出现，比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。今天，阿布扎比技术创新研究所（TII）发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B 。先来总结一波 Falcon Mamba 7B 的亮点：无需增加内存存储，就可以处理任意长度的序列，并且能够在单个 24GB A10 GPU 上运行。目前可以在 Hugging Face 上查看并使用 Falcon Mamba 7B，这个仅用因果解码器的模型采用了新颖的 Mamba 状态空间语言模型（State Space Language Model, SSLM）架构来处理各种文本生成任务。从结果来看，Fa ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博