注册
登录
专栏名称:
AI有道
一个有情怀、有良心的公众号。AI领域机器学习、深度学习等知识集中营,干货满满。期待与你共同进步!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
红星新闻
·
知名艺人金俊秀被曝遭女主播敲诈超8亿韩元! ...
·
3 小时前
红星新闻
·
知名艺人金俊秀被曝遭女主播敲诈超8亿韩元! ...
·
3 小时前
华策影视
·
《我在冷宫忙种田》播放量超1.7亿 ...
·
2 天前
煮娱星球
·
降咖演短剧?他资源也跌太多吧!
·
4 天前
我要WhatYouNeed
·
老板转行做保安,我司还有救吗?
·
5 天前
今天看啥
›
专栏
›
AI有道
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer
AI有道
·
公众号
· · 2024-07-10 10:54
文章预览
转自 | 新智元 【导读】 超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。 一觉醒来,超越Transformer和Mamba的新架构诞生了? 斯坦福、UCSD、UC伯克利和Meta的研究人员提出了一种全新架构,用机器学习模型取代RNN的隐藏状态。 论文地址:https://arxiv.org/abs/2407.04620 这个模型通过对输入token进行梯度下降来压缩上下文,这种方法被称为「测试时间训练层(Test-Time-Training layers,TTT)」。 TTT层直接替代了注意力机制,解锁了具有表现力记忆的线性复杂度架构,使我们能够在上下文中训练包含数百万(未来可能是数十亿)个token的LLM。 作者相信,这个研究了一年多的项目,将从根本上改变我们的语言模型方法。 而结果证明,TTT-Linear和TTT-MLP直接赶超或击败了最强的Transf ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
红星新闻
·
知名艺人金俊秀被曝遭女主播敲诈超8亿韩元!二人谈话被录下,五年间敲诈101次!详情披露
3 小时前
红星新闻
·
知名艺人金俊秀被曝遭女主播敲诈超8亿韩元!二人谈话被录下,五年间敲诈101次!详情披露
3 小时前
华策影视
·
《我在冷宫忙种田》播放量超1.7亿 华策集团发力付费精品短剧
2 天前
煮娱星球
·
降咖演短剧?他资源也跌太多吧!
4 天前
我要WhatYouNeed
·
老板转行做保安,我司还有救吗?
5 天前
墨香中华
·
浙江考生被上海交大录取,看到专业后,家长:宁愿复读也不上!
4 月前
开平广播电视台
·
广东一地报告多起本地病例!近期高发,江门疾控重要提醒→
3 月前