文章预览
Mistral AI 开源了 Pixtral 12B 多模态 LLM。具有自然场景理解,代码生成,图像转代码,图像理解,多图指令跟随,图表理解与分析以及复杂图形推理等多项能力。从效果演示来看模型的能力很强,其中对中文能力的理解也很好。已经开放了模型下载地址和模型试用地址,大家可以去体验一下。 Pixtral 12B主要特点 Mistral Nemo 12B 的直接替代品; 从头开始训练的新型 400M 参数视觉编码器; 搭配基于 Mistral Nemo 的 12B 多模态解码器; 能处理可变的图像尺寸和纵横比; 支持128k上下文窗口中的多个图像。 Pixtral 12B 简介 原生多模式,使用交错图像和文本数据进行训练 在多模式任务中表现出色,擅长遵循指令 在纯文本基准测试中保持最佳性能 建筑学:从头开始训练的新型 400M 参数视觉编码器 基于 Mistral Nemo 的 12B 参数多模态解码器 支持可变的图像尺寸和纵横比 支
………………………………