彻底改变语言模型：全新架构TTT超越Transformer，ML模型代替RNN隐藏状态

深度学习与NLP · 知乎专栏 · · 2024-07-10 19:39

文章预览

来源 | 机器之心 ID | almosthuman2014难以置信，这件事终于发生了。一种全新的大语言模型（LLM）架构有望代替至今在 AI 领域如日中天的 Transformer，性能也比 Mamba 更好。本周一，有关 Test-Time Training（TTT）的论文成为了人工智能社区热议的话题。论文链接： https:// arxiv.org/abs/2407.0462 0 该研究的作者来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta。他们设计了一种新架构 TTT，用机器学习模型取代了 RNN 的隐藏状态。该模型通过输入 token 的实际梯度下降来压缩上下文。该研究作者之一 Karan Dalal 表示，他相信这将根本性的改变语言模型方法。在机器学习模型中，TTT 层直接取代 Attention，并通过表达性记忆解锁线性复杂性架构，使我们能够在上下文中训练具有数百万（有时是数十亿）个 token 的 LLM。作者在 125M 到 1.3B 参数规模的大模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博