BlackMamba：结合了状态空间模型(SSM)和(MoE)，减少计算成本，同时保持模型的表达能力

深度图学习与大模型LLM · 公众号 · · 2024-09-10 11:02

文章预览

大家好，今天我为大家介绍一篇Mamba最新的研究论文。这篇论文提出了一种名为BlackMamba的大模型架构，它结合了状态空间模型(SSM)和专家混合(MoE)的优点。这项工作不仅在性能上与现有的大模型相当，还显著提高了推理效率和降低了训练成本。我推荐这篇论文，因为它为构建更高效、更scalable的大模型开辟了一个新方向。 1. 基本信息标题： BlackMamba: Mixture of Experts for State-Space Models BlackMamba：状态空间模型的专家混合作者及其研究机构：Quentin Anthony, Yury Tokpanov, Paolo Glorioso, Beren Millidge (Zyphra, Palo Alto, CA) 发表时间：2024年2月1日 arXiv链接：https://arxiv.org/abs/2402.01771 代码链接： https://github.com/Zyphra/BlackMamba 2. 研究背景近年来，大模型在自然语言处理领域取得了突破性进展。但是，基于Transformer架构的模型在处理长序列和自回归生成方面存在计算复杂度问题 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博