关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

超越Transformer和Mamba的新架构!

深度图学习与大模型LLM  · 公众号  ·  · 2024-07-10 09:14

文章预览

   新智元报道   编辑:编辑部 【新智元导读】 超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。 一觉醒来,超越Transformer和Mamba的新架构诞生了? 斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构,用机器学习模型取代RNN的隐藏状态。 论文地址:https://arxiv.org/abs/2407.04620 这个模型通过对输入token进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。 TTT层直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构,使我们能够在上下文中训练包含数百万(未来可能是数十亿)个token的LLM。 作者相信,这个研究了一年多的项目,将从根本上改变我们的语言模型方法。 而结果证明,TTT-Linear和TTT-MLP直 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览