文章预览
今天大家都被一个TTT模型架构刷屏了,号称彻底改变现有语言模型,全新架构超越Transformer,那么这个架构到底行不行? 我们来一起分析看看?相信看完后你会给出自己答案 TTT是什么 来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta团队发了一个论文 这篇论文讨论了一种新型的序列建模层,称为测试时训练(Test-Time Training, TTT)层。这些层在测试序列上更新隐藏状态,相当于在测试时进行模型训练 论文提出了两种具体实现:TTT-Linear 和 TTT-MLP,分别使用线性模型和两层MLP作为隐藏状态。在125M到1.3B参数规模下,TTT层的性能与Transformer和现代RNN Mamba相比,匹配或超越了它们。尤其是TTT-Linear在处理长上下文时,比Transformer更快,并且在8k上下文时匹配了Mamba的速度 创新了什么 TTT层替代了Transformer的自注意力层
………………………………