达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

量子位 · 公众号 · AI · 2025-02-14 12:02

文章预览

达摩院投稿量子位 | 公众号 QbitAI 7B大小的视频理解模型中的新SOTA，来了！它就是由达摩院出品的 Video LLaMA 3 ，以图像为中心构建的新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中，VideoLLaMA 3均取得优异成绩，超越多数基线模型。不仅如此，适用于端侧的 2B 大小的Video LLaMA 3，在图像理解上的表现也是较为出色。在涵盖文档 / 图表 / 场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试，如在InfoVQA中超越之前最好成绩，在MathVista数学推理任务上优势明显。 VideoLLaMA 3以图片为中心的设计理念贯穿于整个模型架构和训练过程。通过高质量的图片文本数据为视频理解打下坚实基础，仅使用 3M 视频文本数据，实现全面超越同参数量开源模型的视频理解能力。在线可玩目前，Vid ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 现在手机装的 AI 客户端越来越多了，感觉每家都有自己的优势。今-20250313160340

昨天

爱可可-爱生活 · //@爱可可-爱生活:欢迎参与！-20250313080924

昨天

爱可可-爱生活 · 【[464星]FAQ_Of_LLM_Interview：大模型算-20250312193629

2 天前

爱可可-爱生活 · 【[495星]Local Deep Research：强大的AI-20250312140927

2 天前

宝玉xp · 转发微博-20250312022821

2 天前

中国基础 · 发扬三种精神，提振高质量发展精气神

7 月前

济南都市频道 · 2025年春晚主创官宣！

2 月前

红星新闻 · 女子坐11小时高铁来月经却买不到卫生巾，记者调查：无明确规定，部分列车能买到

3 周前