这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
目录
相关文章推荐
今天看啥  ›  专栏  ›  人工智能与算法学习

彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态

人工智能与算法学习  · 公众号  ·  · 2024-07-09 15:54
    

文章预览

来源:机器之心 从 125M 到 1.3B 的大模型,性能都有提升。 难以置信,这件事终于发生了。 一种全新的大语言模型(LLM)架构有望代替至今在 AI 领域如日中天的 Transformer,性能也比  Mamba  更好。本周一,有关 Test-Time Training( TTT )的论文成为了人工智能社区热议的话题。 论文链接:https://arxiv.org/abs/2407.04620 该研究的作者来自斯坦福大学、加州大学伯克利分校、加州大学圣迭戈分校和 Meta。他们设计了一种新架构 TTT,用机器学习模型取代了 RNN 的隐藏状态。该模型通过输入 token 的实际梯度下降来压缩上下文。 该研究作者之一 Karan Dalal 表示,他相信这将根本性的改变语言模型方法。 在机器学习模型中,TTT 层直接取代 Attention,并通过表达性记忆解锁线性复杂性架构,使我们能够在上下文中训练具有数百万(有时是数十亿)个 token 的 LLM。  作者在 1 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览