今天看啥  ›  专栏  ›  Dots机构投资者社区

谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

Dots机构投资者社区  · 公众号  ·  · 2024-01-06 08:15
本文转自微信公众号“机器之心”,作者:机器之心。机器之心编辑部自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,未来这种情况是一直持续,还是会有新的研究出现,我们不妨先听听身处 AI 圈的研究者是怎么想的。在大模型领域,一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。这个挑战者就是一项名为「Mamba」的研究,其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的 Transformer 模型相媲美。论文一经发表,引起了不小的轰动。惊叹之余,大家发现论文作者只有两位,一位是卡内基梅隆大学机器学习系助理教授 Albert Gu,另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授(即将上任)T ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照