专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

斯坦福提出大模型最强架构TTT,超越Transformers

夕小瑶科技说  · 公众号  ·  · 2024-07-13 12:21
    

文章预览

夕小瑶科技说 原创 作者 | 谢年年 在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结构限制,RNNs容易出现梯度消失和梯度爆炸问题,也无法像Transformer那样进行缩放或有效地利用长上下文。而自注意力机制则擅长处理长文本,但它计算起来有些复杂,复杂度跟数据长度的平方成正比。 最近,来自Stanford的团队设计了一种新的序列建模层—— 测试时训练(Learn at Test Time)(TTT)层 。这个层既保持了线性复杂度的好处,又让隐藏状态变得更加强大和灵活。TTT受自监督学习启发,把隐藏状态本身变成一个小型的机器学习模型,然后每次处理新数据时,都用自监督学习的方式来更新这个模型。这样,隐藏状态就能不断学习和进步,就像我们人类在学习新知识一样。 论文标题 : Learning to ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览