专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿

量子位  · 公众号  · AI  · 2024-09-12 11:46

文章预览

明敏 发自 凹非寺 量子位 | 公众号 QbitAI Mistral的多模态大模型来了! Pixtral 12B 正式发布,同时具备语言和视觉处理能力。 它建立在文本模型 Nemo 12B 基础上,包含一个专门的视觉编码器。 大概24GB, 原生支持任意数量和尺寸的图像 ,大约有40层神经网络、14,336 个隐藏维度大小和32个注意力头,以及一个专用的视觉编码器,支持高分辨率图像(1024×1024)处理。 发布形式还是简单直接一个种子链接。 现在可以通过链接、GitHub或Hugging Face下载模型。 Mistral的开发主管表示,后续也会在Chatbot上接入模型,并提供API服务。 超越Qwen、LLaVA等 虽然目前模型的训练数据、细节都未公开,但是通过模型代码网友们发现了更多细节。 1、先进架构:40层网络、14336隐藏维度大小、32个注意力头。 2、视觉能力:专用视觉编码器,支持1024x1024图像大小和24个隐藏层,用于 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览