专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

谷歌提出创新神经记忆架构，突破Transformer长上下文限制

DeepTech深科技 · 公众号 · 科技媒体 · 2025-01-14 21:41

主要观点总结

本文介绍了谷歌研究院的研究团队在AI模型的长期记忆能力方面取得的突破。他们提出了一种名为Titans的创新神经记忆架构，该架构包含三个核心组件，分别对应人类记忆系统的不同方面。Titans架构具有动态学习和更新的神经长期记忆模块，能够处理长文本任务。实验结果显示，Titans在多个测试基准上表现出色，有望为长文本处理开辟新的可能。

关键观点总结

关键观点1: 谷歌研究院团队提出了名为Titans的创新神经记忆架构，具有动态学习和更新的能力。

Titans架构包括基于注意力机制的核心短期记忆、神经长期记忆模块和持久记忆三个核心组件，分别对应人类记忆系统的不同方面。

关键观点2: Titans架构通过独特的记忆更新机制，能够处理长文本任务，并在多个测试基准上表现出色。

实验结果显示，Titans在常识推理任务、语言建模任务以及BABILong基准测试中均展现出出色的性能，并有效处理超过200万个token的上下文窗口。

关键观点3: Titans架构的设计理念是借鉴人类的记忆特性，如优先记住违反预期的事件，并根据信息的“惊讶度”进行记忆更新。

研究团队提出了三种将核心组件整合的变体架构，并展示了其在不同任务中的应用效果。

文章预览

让 AI 模型拥有人类的记忆能力一直是学界关注的重要课题。传统的深度学习模型虽然在许多任务上取得了显著成效，但在处理需要长期记忆的任务时往往力不从心。就像人类可以轻松记住数天前看过的文章重点，但目前的 AI 模型在处理长文本时却经常丢三落四，这种差距一直是困扰研究人员的关键问题。近日，谷歌研究院的研究团队在这一领域取得了重要突破，Ali Behrouz、钟沛林（Peilin Zhong）和 Vahab Mirrokni 在预印本平台 arXiv 发表论文，提出了一种名为 Titans 的创新神经记忆架构，其核心是一个能在测试时动态学习和更新的神经长期记忆模块。图丨相关论文（来源： arXiv ）目前主流的 Transformer 架构在处理文本时面临着明显的局限。虽然它能够准确捕捉短距离的文本关系，但其注意力机制的计算复杂度会随着序列长度呈二次增长，这使得处理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博