大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

AI有道 · 公众号 · · 2024-07-10 10:54

文章预览

转自 | 新智元【导读】超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。一觉醒来，超越Transformer和Mamba的新架构诞生了？斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构，用机器学习模型取代RNN的隐藏状态。论文地址：https://arxiv.org/abs/2407.04620 这个模型通过对输入token进行梯度下降来压缩上下文，这种方法被称为「测试时间训练层（Test-Time-Training layers，TTT）」。 TTT层直接替代了注意力机制，解锁了具有表现力记忆的线性复杂度架构，使我们能够在上下文中训练包含数百万（未来可能是数十亿）个token的LLM。作者相信，这个研究了一年多的项目，将从根本上改变我们的语言模型方法。而结果证明，TTT-Linear和TTT-MLP直接赶超或击败了最强的Transf ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

红星新闻 · 知名艺人金俊秀被曝遭女主播敲诈超8亿韩元！二人谈话被录下，五年间敲诈101次！详情披露

3 小时前

红星新闻 · 知名艺人金俊秀被曝遭女主播敲诈超8亿韩元！二人谈话被录下，五年间敲诈101次！详情披露

3 小时前

华策影视 · 《我在冷宫忙种田》播放量超1.7亿华策集团发力付费精品短剧

2 天前

煮娱星球 · 降咖演短剧？他资源也跌太多吧！

4 天前

我要WhatYouNeed · 老板转行做保安，我司还有救吗？

5 天前

墨香中华 · 浙江考生被上海交大录取，看到专业后，家长：宁愿复读也不上！

4 月前

开平广播电视台 · 广东一地报告多起本地病例！近期高发，江门疾控重要提醒→

3 月前

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

文章预览

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer