Token已死？AI认知的新范式正在崛起

腾讯科技 · 公众号 · 科技媒体 · 2024-12-26 19:41

主要观点总结

本文介绍了Meta在人工智能领域的新研究，其正在尝试改变语言模型的“思考空间”，采用新的方法重塑AI的思维方式。文章详细描述了Meta的三种新的模型架构：大概念模型（LCM）、Byte Latent Transformer（BLT）和Coconut，它们都在尝试改变原有的token方式，让AI的思维方式更接近人类的思考方式。这些新的尝试为AI的发展开启了新的可能性，并可能带来AI的再次进化。

关键观点总结

关键观点1: Meta作为科技巨头，正在尝试改变语言模型的“思考空间”，其新研究在大语言模型界引发了一场范式变革。

Meta通过三种新的模型架构——大概念模型（LCM）、Byte Latent Transformer（BLT）和Coconut——来尝试改变原有的基于token的AI思维方式。这些新的方法旨在让AI的思维方式更接近人类的思考方式，从而带来更高的创造性和适应性。

关键观点2: 大概念模型（LCM）是Meta的一项重大尝试，它试图粘合符号主义和连接主义，让AI在语义空间中进行推理和生成。

LCM通过概念化训练，让大模型直接学习概念，从而改变了原有的基于token的训练方式。这种方法提高了模型的语义理解能力，并在跨语言和长文本生成任务上展现出优势。然而，它在文本扩展任务上的表现可能不如传统的LLM。

关键观点3: Byte Latent Transformer（BLT）是Meta的另一项创新，它试图用字节取代token作为潜空间的核心表征。

BLT通过动态字节包（patchs）进行训练，这种方法能够更好地利用计算量，并准确还原字节间的关系。此外，patch比token更容易扩展，这避免了静态token词表的限制。

关键观点4: Coconut是一种在思维链中推理的新方法，它避免了将中间推理过程转换为具体的语言token。

Coconut允许模型在“想法”的空间中直接推理，而不是将每一步都转换为具体的语言来表达。这种方法提高了大语言模型的推理能力，并在部分测试项目上表现出超越传统CoT的能力。

文章预览

腾讯科技《AI未来指北》特约作者郝博阳编辑郑可君就在OpenAI热闹的12天发布会刚刚落下帷幕，谷歌的火力全开新模型Voe2和Gemnini2吸引了全球AI开发者的眼球时，Meta作为三巨头之一则在筹划着一场静悄悄的革命。这场革命不是关于Agent、图像这些AI界最火的方向，而是关于AI的思维方式——他们正试图改变机器"思考"的根本逻辑。在人工智能发展史上，语言处理一直面临着一个根本性的矛盾：我们试图用离散的符号系统（也就是所谓的“token”）来捕捉本质上连续且复杂的人类思维。这种方法之所以流行，很大程度上是出于工程实现的考虑。计算机只能处理离散的数值表示，因此需要将文本转换为向量进行数学运算，而token是实现这种转换的最简单直接的方式。它可以基于确定的词表进行切分和映射，就可以把任意长度的句子变成离散的向量。（ ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博