今天看啥  ›  专栏  ›  机器之心

近8年后,谷歌Transformer继任者「Titans」来了,上下文记忆瓶颈被打破

机器之心  · 公众号  · AI  · 2025-01-15 17:08
    

主要观点总结

本文报道了谷歌推出的新架构Titans,它是一种结合注意力机制和神经记忆模块的架构,旨在提高AI模型的长期记忆能力。该架构在多个任务上表现出优异的性能,包括语言建模、常识推理、基因组学和时序预测。文章介绍了Titans的设计原理、实现细节和实验结果。

关键观点总结

关键观点1: 新架构Titans的介绍

谷歌推出了新架构Titans,旨在提高AI模型的长期记忆能力。该架构结合了注意力机制和神经记忆模块,可以在测试时学习记忆。

关键观点2: Titans的设计原理

Titans的设计原理包括学习测试时的记忆、长期神经记忆模块的设计、以及三种变体(MAC、MAG和MAL)的融合方式。其中,长期神经记忆模块通过在线元模型学习如何在测试时记忆或忘记数据。

关键观点3: Titans的实现细节

Titans的实现细节包括架构的组件、使用的激活函数、卷积层、门控机制等。谷歌还在实验中对架构进行了优化,例如使用矩阵乘法进行并行化训练。

关键观点4: Titans的实验结果

Titans在多个任务上取得了优异的性能,包括语言建模、常识推理、大海捞针任务、BABILong基准测试、深度记忆的影响及时序预测和DNA建模任务。此外,谷歌还对Titans的效率进行了评估,并与当前SOTA序列模型进行了比较。


文章预览

机器之心报道 编辑:杜伟 正如论文一作所说,「新架构 Titans 既比 Transformer 和现代线性 RNN 更有效,也比 GPT-4 等超大型模型性能更强。」 终于,在 2017 年推出影响 AI 行业长达 8 年的 Transformer 架构之后,谷歌带来了 全新的架构 Titans 。这次,谷歌的重点是将推理领域非常重要的测试时(test-time)计算用在了记忆(memory)层面。 在谈到推出 Titans 的初衷时,论文一作 Ali Behrouz 表示,「注意力机制一直是大多数 LLM 进展的重要组成部分,不过它无法扩展到长上下文。因此,Titans 应运而出,它成为了一种同时具备注意力机制和元上下文记忆的结构,可以在测试时学习记忆。该架构可以将上下文窗口扩展到 200 万 tokens。」 图源:https://x.com/behrouz_ali/status/1878859086227255347 这意味着,谷歌 Transformer 迎来了它的「继任者」。 图源:https://x.com/mark_k/status/1878896628 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览