今日开源（2024-09-12）：Mistral AI发布Pixtral 12B，多模态大语言模型，支持任意尺寸、数量的图像处理

机器之心SOTA模型 · 公众号 · · 2024-09-12 17:59

文章预览

🏆 基座模型 ①项目：Pixtral ★ Pixtral 12B 是由 Mistral AI 发布的多模态模型，支持图像和文本的联合处理，拥有 120 亿参数，大小约为 24GB 。模型基于文本模型 Nemo 12B 构建，能够支持任意大小的图像和 128k 的上下文窗口。用户可以通过传递图像和 URL 与文本一起进行消息处理，该模型的检查点由社区上传，提供了图像支持功能，适用于多种机器学习和深度学习任务。词汇库有 131,072 个不同的 token，能实现非常细腻的语言理解和生成。 ☆一键收藏： https://sota.jiqizhixin.com/project/pixtral ②项目：LLaMA-Omni ★ LLaMA-Omni 是一个基于 Llama-3.1-8B-Instruct 构建的低延迟高质量端到端语音交互模型，旨在实现 GPT-4o 级别的语音能力。该模型支持低延迟的语音交互，能够同时生成文本和语音响应，适用于多种语音指令场景。 ☆一键收藏： https://sota.jiqizhixin.com/proje ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博