主要观点总结
新智元报道,法国AI初创Mistral AI发布了首个多模态模型Pixtral 12B,该模型集语言、视觉能力于一身,正式开启多模态AI新时代。Pixtral 12B能够识别复杂手写笔记、数学公式、图表等,并在多项基准测试中性能大幅超越其他模型。此外,Mistral AI现场展示了模型的强大能力,包括手绘稿直出代码、复杂图表理解等。同时,Mistral AI的创始人Arthur Mensch与英伟达老黄进行了炉边谈话,探讨了AI和算力的未来。但模型的数据存在争议,Hugging Face技术负责人指出Mistral AI的数据与Qwen 2 VL 7B的官方数据存在差距。
关键观点总结
关键观点1: Pixtral 12B的发布及多模态能力
Pixtral 12B是Mistral AI的首个多模态模型,具备语言和视觉能力,能够识别复杂手写笔记、数学公式、图表等。在多项基准测试中性能超越其他模型。
关键观点2: Mistral AI现场展示模型的强大能力
Mistral AI在峰会上现场展示了Pixtral 12B的能力,包括手绘稿直出代码、复杂图表理解等。
关键观点3: Mistral AI与英伟达的交流
Mistral AI的创始人Arthur Mensch与英伟达老黄进行了炉边谈话,探讨了AI和算力的未来。
关键观点4: 模型数据的争议
Hugging Face技术负责人指出Mistral AI的Pixtral 12B模型的数据与Qwen 2 VL 7B的官方数据存在差距,引发争议。
文章预览
新智元报道 编辑:桃子 好困 【新智元导读】 一条磁力链,又在AI圈掀起狂澜。成立一年法国AI独角兽Mistral,官宣首个多模态模型Pixtral 12B,不仅能看懂手绘稿,还可以理解复杂公式、图表。 法国AI初创Mistral AI,又扔出一条磁力链炸场了。 这次,与以往不同的是,他们发布了首个多模态模型Pixtral 12B,集语言、视觉能力于一身。 这意味着,Mistral AI正式跨界MMML,开启多模态AI新时代,同时向OpenAI、Anthropic等劲敌发起挑战。 多模态Pixtral 12B,是基于文本模型Nemo 12B完成训练。 与GPT-4o、Claude类似,只需上传一张图、提供一个链接,模型就能根据提示回答问题。 它不仅能够识别复杂手写笔记,还能看懂数学公式、图表等等。 在多项基准测试(文本、指令跟随、多模态)中,新模型性能大幅超越Qwen2 7B、Phi-3 Vision开源模型。 Hugging Face技术负责人发现
………………………………