超越Transformer和Mamba的新架构!

深度图学习与大模型LLM · 公众号 · · 2024-07-10 09:14

文章预览

新智元报道编辑：编辑部【新智元导读】超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。一觉醒来，超越Transformer和Mamba的新架构诞生了？斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构，用机器学习模型取代RNN的隐藏状态。论文地址：https://arxiv.org/abs/2407.04620 这个模型通过对输入token进行梯度下降来压缩上下文，这种方法被称为「测试时间训练层（Test-Time-Training layers，TTT）」。 TTT层直接替代了注意力机制，解锁了具有表现力记忆的线性复杂度架构，使我们能够在上下文中训练包含数百万（未来可能是数十亿）个token的LLM。作者相信，这个研究了一年多的项目，将从根本上改变我们的语言模型方法。而结果证明，TTT-Linear和TTT-MLP直 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

日本万象 · 每天一句日语金句，收获不一样的心情！

21 小时前

请辩 · 住自己的房子，就幸福了吗？

2 天前

旺材锂电 · 【资讯】182亿！江苏这家动力电池独角兽要IPO敲钟了！

4 月前

研勤工控 · 研勤课堂：工控机和普通电脑的区别

4 月前

瓦砾村夫 · “从这里看，地球确实是个完美的世界”｜北极星黎明任务三日记

3 月前

安泰职发 · 招聘资讯 | 中国航空油料集团有限公司2025年校园招聘公告

1 周前