专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

多模态竞技场对标90B Llama 3.2！Pixtral 12B技术报告全公开

新智元 · 公众号 · AI · 2024-11-19 12:46

主要观点总结

新智元报道，Mistral AI在9月份发布了自家的首款多模态大模型Pixtral 12B。该模型具有强大的性能，能够处理多模态任务，并且在一些测试中表现优于其他类似大小的开源模型。Pixtral 12B采用了Transformer架构，具备多轮、多图像对话的能力。此外，Mistral还贡献了一个名为MM-MT-Bench的开源基准测试，用于评估视觉语言模型的性能。该模型的技术细节和架构也已被公开。

关键观点总结

关键观点1: Mistral AI发布首款多模态大模型Pixtral 12B

作为欧洲的OpenAI，Mistral AI发布了自家的首款多模态大模型Pixtral 12B，该模型具有强大的性能，能够处理多模态任务。

关键观点2: Pixtral 12B的性能优势

Pixtral 12B在性能上优于其他类似大小的开源模型，甚至在一些评测中表现比Meta家的多模态老大哥Llama-3.2 90B还要好。

关键观点3: Pixtral 12B的模型结构

Pixtral 12B整体为Transformer架构，具备多模态解码器和视觉编码器。视觉编码器部分是新鲜出炉的PixtralViT，采用ViT架构打底，具有处理各种分辨率和纵横比的图像的能力。

关键观点4: MM-MT-Bench基准测试

为了评估视觉语言模型的性能，Mistral还贡献了一个名为MM-MT-Bench的开源基准测试。该测试模拟视觉语言模型的实际使用，用于提取、总结和推理图像内容。

关键观点5: Pixtral 12B的实际应用

Pixtral 12B已应用于实际场景中，如小助手或聊天机器人等，其强大的多模态能力为用户提供了更加丰富的交互体验。

文章预览

新智元报道编辑：alan 【新智元导读】以开源极客之姿杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开。作为欧洲的OpenAI，Mistral最近压力不小。端侧小模型端不出来，对比评测的结果又遭到质疑。上个月震撼登场的自家首款多模态大模型Pixtral 12B，也疑似遇到了成绩不如人的窘境。不过世间纷扰，留待时间之中去见分晓。毕竟Mistral AI当年也是以开源极客之姿杀入江湖的，以后的以后，圈内人总会想起有个一言不合就甩出磁力链的公司吧。按照惯例，在9月份甩出多模态Pixtral 12B的开源链接之后，Mistral会在一段时间后放出技术报告。我们来看一下Mistral家的第一个MMLM有什么新花样。论文地址：https://arxiv.org/abs/2410.07073 开源代码：https://github.com/mistralai 首先，许多开源模型一般有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博