RNN再次卷土重来：斯坦福新改进超越Transformer和Mamba！

机器学习算法工程师 · 公众号 · · 2024-07-10 11:51

文章预览

点蓝色字关注 “机器学习算法工程师 ” 设为星标，干货直达！一觉醒来，超越Transformer和Mamba的新架构诞生了？斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构，用机器学习模型取代RNN的隐藏状态。论文地址：https://arxiv.org/abs/2407.04620 这个模型通过对输入token进行梯度下降来压缩上下文，这种方法被称为「测试时间训练层（Test-Time-Training layers，TTT）」。 TTT层直接替代了注意力机制，解锁了具有表现力记忆的线性复杂度架构，使我们能够在上下文中训练包含数百万（未来可能是数十亿）个token的LLM。作者相信，这个研究了一年多的项目，将从根本上改变我们的语言模型方法。而结果证明，TTT-Linear和TTT-MLP直接赶超或击败了最强的Transformer和Mamba！作者之一的Xiaolong Wang惊喜地表示：不敢相信，我们真的做到了。更令人兴奋的是，虽然 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博