主要观点总结
本文介绍了Meta在人工智能领域的新研究,其正在尝试改变语言模型的“思考空间”,采用新的方法重塑AI的思维方式。文章详细描述了Meta的三种新的模型架构:大概念模型(LCM)、Byte Latent Transformer(BLT)和Coconut,它们都在尝试改变原有的token方式,让AI的思维方式更接近人类的思考方式。这些新的尝试为AI的发展开启了新的可能性,并可能带来AI的再次进化。
关键观点总结
关键观点1: Meta作为科技巨头,正在尝试改变语言模型的“思考空间”,其新研究在大语言模型界引发了一场范式变革。
Meta通过三种新的模型架构——大概念模型(LCM)、Byte Latent Transformer(BLT)和Coconut——来尝试改变原有的基于token的AI思维方式。这些新的方法旨在让AI的思维方式更接近人类的思考方式,从而带来更高的创造性和适应性。
关键观点2: 大概念模型(LCM)是Meta的一项重大尝试,它试图粘合符号主义和连接主义,让AI在语义空间中进行推理和生成。
LCM通过概念化训练,让大模型直接学习概念,从而改变了原有的基于token的训练方式。这种方法提高了模型的语义理解能力,并在跨语言和长文本生成任务上展现出优势。然而,它在文本扩展任务上的表现可能不如传统的LLM。
关键观点3: Byte Latent Transformer(BLT)是Meta的另一项创新,它试图用字节取代token作为潜空间的核心表征。
BLT通过动态字节包(patchs)进行训练,这种方法能够更好地利用计算量,并准确还原字节间的关系。此外,patch比token更容易扩展,这避免了静态token词表的限制。
关键观点4: Coconut是一种在思维链中推理的新方法,它避免了将中间推理过程转换为具体的语言token。
Coconut允许模型在“想法”的空间中直接推理,而不是将每一步都转换为具体的语言来表达。这种方法提高了大语言模型的推理能力,并在部分测试项目上表现出超越传统CoT的能力。
文章预览
腾讯科技《AI未来指北》特约作者 郝博阳 编辑 郑可君 就在OpenAI热闹的12天发布会刚刚落下帷幕,谷歌的火力全开新模型Voe2和Gemnini2吸引了全球AI开发者的眼球时,Meta作为三巨头之一则在筹划着一场静悄悄的革命。 这场革命不是关于Agent、图像这些AI界最火的方向,而是关于AI的思维方式——他们正试图改变机器"思考"的根本逻辑。 在人工智能发展史上,语言处理一直面临着一个根本性的矛盾:我们试图用离散的符号系统(也就是所谓的“token”)来捕捉本质上连续且复杂的人类思维。 这种方法之所以流行,很大程度上是出于工程实现的考虑。 计算机只能处理离散的数值表示,因此需要将文本转换为向量进行数学运算,而token是实现这种转换的最简单直接的方式。它可以基于确定的词表进行切分和映射,就可以把任意长度的句子变成离散的向量。 (
………………………………