变色龙（Chameleon）会成为Meta的Llama 4 吗？

PaperAgent · 公众号 · · 2024-05-27 11:28

文章预览

Meta 提出了“ 变色龙（ Chameleon ）：混合模态早期融合基础模型 ”，这是一种统一的方法，用于图像和文本的完全基于token的表示。没有编码器或连接器。 https://x.com/_philschmid/status/1794279340735094971 实现： 1️⃣ 训练了两个分词器，一个图像分词器，它将512×512像素的图像编码为来自码本（8192个）的1024个token，以及一个词汇量为65536的BPE分词器，其中包含8192个图像码本token。 2️⃣ 使用基于Llama 2的解码器架构，但结合了查询-键归一化和层归一化的重新排序，以在混合模态设置中稳定训练。 3️⃣ 预训练阶段1（80%）：在文本（Llama 2，CodeLlama⇒2.9T token）、文本-图像（14亿对/1.5T token）、文本/图像交错（4000亿token）上进行无监督训练； 4️⃣ 预训练阶段2（20%）：将第一阶段的数据集减半，并包括更高质量的数据和指令数据。 5️⃣ 在约180万个样 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博