主要观点总结
法国AI初创公司Mistral AI发布了其首个多模态模型Pixtral 12B,该模型具有强大的图像处理能力,可以回答与图像相关的任何问题。Pixtral 12B具有先进架构设计和强大的视觉处理能力,能够识别任意数量和大小的图像,并生成图表。此外,英伟达创始人黄仁勋对推理技术的未来和Mistral AI的发展表达了看法。同时,Mistral AI的运营策略和调整开源政策也引起了业界的关注。
关键观点总结
关键观点1: Pixtral 12B模型的发布。
Mistral AI发布了其首个多模态模型Pixtral 12B,该模型能够处理图像并回答相关问题。
关键观点2: Pixtral 12B模型的特性。
Pixtral 12B具有先进架构设计、强大的视觉处理能力和独特的原生支持任意数量和大小的图像的功能。
关键观点3: 英伟达创始人黄仁勋的观点。
黄仁勋表示英伟达将继续优化GPU设计与性能,特别是推理技术,并期望未来能有数百万智能体作为数字员工自动运营公司。
关键观点4: Mistral AI的运营策略和开源政策调整。
此前Mistral AI采取免费开源模型运营策略,但最近调整为闭源路线,引起业界对AI开源领域的关注。
文章预览
没有任何预告,法国 AI 初创 Mistral AI 昨晚突然发布了旗下首个多模态模型。 该模型名为 Pixtral 12B,拥有 120 亿个参数,大小约为 24GB, 基于 Mistral 的文本模型 Nemo 12B 构建。 它能够回答与给定 URL 或 base64 编码图像相关的任意数量、任意大小的图片问题。 在 Mistral 的闭门会议上,官方还透露了关于 Pixtral 12B 的更多细节。 从网上流传的多项基准测试结果来看,Pixtral 12B 的性能几乎全面碾压了 Phi-3 vision、Qwen2-VL 7B、Claude 3 Haiku、LLaVA-OV 7B。 但很快, HuggingFace 的技术主管 Philipp Schmid 指出这些数据可能不太对劲。 他在 X 平台发文称,Pixtral 12B 的实际跑分并不如 Qwen 2 7B VL,而且 Qwen 2 7B VL 的参数规模还小了 40%。 网友还发现,比较的图表使用的竟然是 Qwen 7B(不具备多模态能力)而非 Qwen2-VL,似乎再次证明了这个世界是个巨大的草台班子。 Mistral 开发者关系
………………………………