文章预览
摘要 我们介绍了 Pixtral 12B,一个拥有 120 亿参数的多模态语言模型。 Pixtral 12B 被训练来理解自然图像和文档,在各种多模态基准测试中取得领先的性能,超越了许多更大的模型。 与许多开源模型不同,Pixtral 也是一个在同尺寸类别中处于领先地位的文本模型,并且没有为了在多模态任务中脱颖而出而牺牲自然语言性能。 Pixtral 使用了一个从头开始训练的新视觉编码器,这使得它能够以自然分辨率和纵横比摄取图像。 这给了用户在处理图像时使用的符号数量方面的灵活性。 Pixtral 也能够在其 128K 符号的长期上下文窗口中处理任意数量的图像。 Pixtral 12B 显著优于其他同尺寸的开源模型(Llama-3.2 11B & Qwen-2-VL 7B)。 它也优于像 Llama-3.2 90B 这样的更大的开源模型,而其尺寸仅为后者的 1/7。 我们还贡献了一个开源基准测试 MM-MT-Bench,用于在实
………………………………