全新模型基座架构TTT: 下一个Transformer?

AI寒武纪 · 公众号 · · 2024-07-10 08:43

文章预览

今天大家都被一个TTT模型架构刷屏了，号称彻底改变现有语言模型，全新架构超越Transformer，那么这个架构到底行不行？我们来一起分析看看？相信看完后你会给出自己答案 TTT是什么 ‍‍‍‍ 来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta团队发了一个论文这篇论文讨论了一种新型的序列建模层，称为测试时训练（Test-Time Training, TTT）层。这些层在测试序列上更新隐藏状态，相当于在测试时进行模型训练 ‍ 论文提出了两种具体实现：TTT-Linear 和 TTT-MLP，分别使用线性模型和两层MLP作为隐藏状态。在125M到1.3B参数规模下，TTT层的性能与Transformer和现代RNN Mamba相比，匹配或超越了它们。尤其是TTT-Linear在处理长上下文时，比Transformer更快，并且在8k上下文时匹配了Mamba的速度创新了什么 ‍‍‍‍‍‍ TTT层替代了Transformer的自注意力层 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

一条 · 吉谷能泡能煮全能小茶师，沸点恒温，自动上水，养生茶生活一机搞定

昨天

三联生活周刊 · 流浪汉的点歌台

昨天

三联生活周刊 · 下班后，开启B面人生

6 天前

有限次重复博弈 · 当全世界在建前十大工程 -20240928153738

1 月前

武汉清风 · 【党纪学习教育】纪律处分条例·学习问答丨如何理解和把握对问责泛化、简单化行为追究党纪责任的规定？

1 月前