今天看啥  ›  专栏  ›  AI科技论谈

力压Transformer,详解Mamba和状态空间模型(上)

AI科技论谈  · 公众号  ·  · 2024-07-22 18:00

文章预览

介绍Mamba和状态空间模型。 长按关注《AI科技论谈》 大型语言模型(LLMs)之所以能够在语言理解与生成上取得巨大成功,Transformer架构是其强大的支撑。从开源的Mistral,到OpenAI开发的闭源模型ChatGPT,都采用了这一架构。 然而,技术的探索从未止步。为进一步提升LLMs的性能,学界正在研发能够超越Transformer的新架构。其中,Mamba模型以其创新的状态空间模型(State Space Model)成为研究的焦点。 本文介绍Mamba模型及其在语言建模领域的应用,逐步解析状态空间模型的基本概念,并通过丰富的可视化内容,让读者直观地理解这一技术如何有望挑战现有的Transformer架构。 1 Transformer架构的挑战 我们先对Transformer架构做一个快速回顾,并指出其存在的一个主要缺陷。 Transformer架构将文本输入视为由一系列token构成的序列。 其核心优势在于,无论面对何种输入 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览