专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Mistral发布了其首款多模态模型Pixtral 12B

FightingCV  · 公众号  ·  · 2024-10-16 09:00

文章预览

摘要 我们介绍了 Pixtral 12B,一个拥有 120 亿参数的多模态语言模型。  Pixtral 12B 被训练来理解自然图像和文档,在各种多模态基准测试中取得领先的性能,超越了许多更大的模型。  与许多开源模型不同,Pixtral 也是一个在同尺寸类别中处于领先地位的文本模型,并且没有为了在多模态任务中脱颖而出而牺牲自然语言性能。  Pixtral 使用了一个从头开始训练的新视觉编码器,这使得它能够以自然分辨率和纵横比摄取图像。  这给了用户在处理图像时使用的符号数量方面的灵活性。  Pixtral 也能够在其 128K 符号的长期上下文窗口中处理任意数量的图像。  Pixtral 12B 显著优于其他同尺寸的开源模型(Llama-3.2 11B & Qwen-2-VL 7B)。  它也优于像 Llama-3.2 90B 这样的更大的开源模型,而其尺寸仅为后者的 1/7。  我们还贡献了一个开源基准测试 MM-MT-Bench,用于在实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览