专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

新智元 · 公众号 · AI · 2024-07-09 12:50

文章预览

新智元报道编辑：编辑部【新智元导读】超越Transformer和Mamba的新架构，刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。一觉醒来，超越Transformer和Mamba的新架构诞生了？斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构，用机器学习模型取代RNN的隐藏状态。论文地址：https://arxiv.org/abs/2407.04620 这个模型通过对输入token进行梯度下降来压缩上下文，这种方法被称为「测试时间训练层（Test-Time-Training layers，TTT）」。 TTT层直接替代了注意力机制，解锁了具有表现力记忆的线性复杂度架构，使我们能够在上下文中训练包含数百万（未来可能是数十亿）个token的LLM。作者相信，这个研究了一年多的项目，将从根本上改变我们的语言模型方法。而结果证明，TTT-Linear和TTT-MLP直 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 玩转AI游戏开发！#ai##科技# DeepLearning A-20241121183241

2 天前

宝玉xp · 转：cloudflare worker AI 现在所有的生图模型-20241121164452

2 天前

字节跳动技术团队 · 无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

3 天前

字节跳动技术团队 · 无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

3 天前

黄建同学 · #英伟达##英伟达Blackwell芯片已全面投产#国外分析师B-20241121092656

3 天前

爱可可-爱生活 · [CL]《Stronger Models are NOT Str-20241118055916

6 天前

法询科技 · 产业基金的招商引产、架构募资、运营赋能、投后退出

4 月前

半导体芯闻 · WiFi 7来了，芯片设计挑战升级

1 月前

深圳市投资基金同业公会 · 罕见狂飙！“闪破”30000亿

1 月前

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

文章预览

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer