文章预览
Meta 提出了“ 变色龙( Chameleon ): 混合模态早期融合基础模型 ”,这是一种统一的方法,用于图像和文本的完全基于token的表示。 没有编码器或连接器。 https://x.com/_philschmid/status/1794279340735094971 实现: 1️⃣ 训练了两个分词器,一个图像分词器,它将512×512像素的图像编码为来自码本(8192个)的1024个token,以及一个词汇量为65536的BPE分词器,其中包含8192个图像码本token。 2️⃣ 使用基于Llama 2的解码器架构,但结合了查询-键归一化和层归一化的重新排序,以在混合模态设置中稳定训练。 3️⃣ 预训练阶段1(80%):在文本(Llama 2,CodeLlama⇒2.9T token)、文本-图像(14亿对/1.5T token)、文本/图像交错(4000亿token)上进行无监督训练; 4️⃣ 预训练阶段2(20%):将第一阶段的数据集减半,并包括更高质量的数据和指令数据。 5️⃣ 在约180万个样
………………………………