专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

新智元 · 公众号 · AI · 2024-10-28 15:51

主要观点总结

智源研究院联合多所高校推出了小时级的超长视频理解大模型Video-XL，能够用一张80G显卡处理小时级视频。该模型借助语言模型的原生能力对长视觉序列进行压缩，实现了良好的泛化能力，并在多个主流长视频理解基准评测中排名第一。Video-XL有望在电影摘要、视频异常检测、广告植入检测等场景展现出广泛应用价值。

关键观点总结

关键观点1: Video-XL模型的特点

推出了小时级的超长视频理解大模型Video-XL；借助语言模型的原生能力对长视觉序列进行压缩；在多个主流长视频理解基准评测中排名第一；具有良好的泛化能力；可在电影摘要、视频异常检测、广告植入检测等场景广泛应用。

关键观点2: Video-XL模型的优势

仅需一块80G显卡即可处理小时级视频；在效率和性能之间实现了良好的平衡；保留了短视频理解的能力。

关键观点3: 模型结构

Video-XL整体模型结构和主流的MLLMs结构相似，由视觉编码器、视觉-语言映射器以及语言模型构成；针对多模态数据建立了一个统一的视觉编码机制。

关键观点4: 模型训练方式

Video-XL通过优化在压缩视觉信号下的生成质量进行训练；使用特殊的视觉摘要标记（VST）进行视觉上下文隐空间压缩；通过最小化自回归损失进行训练。

文章预览

新智元报道编辑：编辑部 HYZ 【新智元导读】长视频理解迎来新纪元！智源联手国内多所顶尖高校，推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频，未来AI看懂电影再也不是难事。长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理10分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型Video-XL。 Video-XL借助语言模型（LLM）的原生能力对长视觉序列进行压缩，不仅保留了短视频理解的能力，而且在长视频理解上展现了出色的泛化能力。 Video-XL相较于同等参数规模的模型，在多个主流长视频理解基准评测的多项任务 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博