关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

BlackMamba:结合了状态空间模型(SSM)和(MoE),减少计算成本,同时保持模型的表达能力

深度图学习与大模型LLM  · 公众号  ·  · 2024-09-10 11:02
    

文章预览

大家好,今天我为大家介绍一篇Mamba最新的研究论文。这篇论文提出了一种名为BlackMamba的大模型架构,它结合了状态空间模型(SSM)和专家混合(MoE)的优点。这项工作不仅在性能上与现有的大模型相当,还显著提高了推理效率和降低了训练成本。我推荐这篇论文,因为它为构建更高效、更scalable的大模型开辟了一个新方向。 1. 基本信息 标题: BlackMamba: Mixture of Experts for State-Space Models BlackMamba:状态空间模型的专家混合 作者及其研究机构:Quentin Anthony, Yury Tokpanov, Paolo Glorioso, Beren Millidge (Zyphra, Palo Alto, CA) 发表时间:2024年2月1日 arXiv链接:https://arxiv.org/abs/2402.01771 代码链接: https://github.com/Zyphra/BlackMamba 2. 研究背景 近年来,大模型在自然语言处理领域取得了突破性进展。但是, 基于Transformer架构的模型在处理长序列和自回归生成方面存在计算复杂度问题 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览