专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
GiantPandaCV  ·  使用torchtune把LLaMa-3.1 ... ·  17 小时前  
GiantPandaCV  ·  图解Megatron ... ·  2 天前  
今天看啥  ›  专栏  ›  我爱计算机视觉

一块显卡理解一部完整电影!智源联合多所高校推出小时级的超长视频理解大模型Video-XL

我爱计算机视觉  · 公众号  ·  · 2024-10-28 12:39
    

文章预览

关注公众号,发现CV技术之美 长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型在处理10分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。对此,智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校,推出了小时级的超长视频理解大模型Video-XL。 Video-XL借助语言模型(LLM)的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,而且在长视频理解上展现了出色的泛化能力。 Video-XL相较于同等参数规模的模型,在多个主流长视频理解基准评测的多项任务中排名第一 。 此外,Video-XL在效率与性能之间实现了良好的平衡, 仅需一块80G显存的显卡即可处理2048帧输入(对小时级长度视频采样),并在视频“海中捞针”任务中取得了接近95% ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览