专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩

量子位  · 公众号  · AI  · 2025-02-14 12:02
    

文章预览

达摩院 投稿 量子位 | 公众号 QbitAI 7B大小的视频理解模型中的新SOTA,来了! 它就是由达摩院出品的 Video LLaMA 3 ,以图像为中心构建的新一代多模态视频-语言模型。 在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中,VideoLLaMA 3均取得优异成绩,超越多数基线模型。 不仅如此,适用于端侧的 2B 大小的Video LLaMA 3,在 图像理解 上的表现也是较为出色。 在涵盖文档 / 图表 / 场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试,如在InfoVQA中超越之前最好成绩,在MathVista数学推理任务上优势明显。 VideoLLaMA 3以图片为中心的设计理念贯穿于整个模型架构和训练过程。 通过高质量的图片文本数据为视频理解打下坚实基础,仅使用 3M 视频文本数据,实现全面超越同参数量开源模型的视频理解能力。 在线可玩 目前,Vid ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览