今日开源（2024-12-16）：DeepSeek-VL2性能跃升，仅1至4.5B激活参数，覆盖视觉问答、OCR、图表理解等任务

机器之心SOTA模型 · 公众号 · · 2024-12-16 18:01

文章预览

🏆基座模型 ①项目：DeepSeek-VL2 ★ DeepSeek-VL2 是一系列先进的专家混合（MoE）视觉语言模型，显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务中表现出色。 DeepSeek-VL2 系列包括三个变体：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small 和 DeepSeek-VL2，分别具有 1.0B、2.8B 和 4.5B 的激活参数。与现有的开源密集和 MoE 模型相比，DeepSeek-VL2 在使用相似或更少的激活参数的情况下实现了具有竞争力或最先进的性能。 ☆一键收藏： https://sota.jiqizhixin.com/project/deepseek-vl2 ②项目：Infini-Megrez ★ Infini-Megrez是由无问芯穹（Infinigence AI）研发的端侧全模态理解模型。该项目基于Megrez-3B-Instruct扩展，具备图片、文本、音频三种模态数据的理解分析能力。 Megrez-3B-Omni在图像、语言和语音理解方面均取得了优异的精度表现，尤其 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博