文章预览
文章转载自「机器之心」。 终于,在 2017 年推出影响 AI 行业长达 8 年的 Transformer 架构之后, 谷歌带来了全新的架构 Titans。 这次,谷歌的重点是将推理领域非常重要的测试时(test-time)计算用在了记忆(memory)层面。 在谈到推出 Titans 的初衷时,论文一作 Ali Behrouz 表示,「注意力机制一直是大多数 LLM 进展的重要组成部分,不过它无法扩展到长上下文。因此,Titans 应运而出,它成为了一种同时具备注意力机制和元上下文记忆的结构,可以在测试时学习记忆。该架构可以将上下文窗口扩展到 200 万 tokens。」 图源:https://x.com/behrouz_ali/status/1878859086227255347 这意味着,谷歌 Transformer 迎来了它的「继任者」。 图源:https://x.com/mark_k/status/1878896628654022993 01 200 万上下文窗口 多年来,研究人员一直在广泛探究如何有效地利用循环模型和注意力机制,其中循
………………………………