专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
今天看啥  ›  专栏  ›  极市平台

极市直播预告|更强VideoChat来袭!InternVideo2:扩展多模态视频理解的基础模型

极市平台  · 公众号  · 互联网短视频 科技自媒体  · 2024-08-13 22:00
    

主要观点总结

极市平台邀请王毅分享关于视频理解的最新研究。王毅介绍了上海人工智能实验室通用视觉中心(OpenGVLab)的新模型InternVideo2及其在视频理解领域的性能。分享了InternVideo2的设计理念和核心技术,以及其如何有效嵌入大型模型中以提高视频理解性能。文章还涉及模型的应用场景、技术细节和开源生态建设。

关键观点总结

关键观点1: InternVideo2模型介绍

InternVideo2是新的视频基础模型(ViFM)家族,用于视频理解。该模型在多个视频和音频任务上展示了优越的性能,特别是在与视频相关的对话和长视频理解基准测试中优于其他模型。

关键观点2: 模型设计理念和技术

InternVideo2的设计基于渐进式训练方法,统一了掩码视频建模、跨模态对比学习和下一个令牌预测。通过这种方法,视频编码器的规模扩展到60亿个参数。

关键观点3: 数据层面的考虑

在数据层面,通过语义分割视频和生成视频音频语音字幕来优先考虑时空一致性,提高了视频和文本之间的对齐。

关键观点4: 模型的应用场景

InternVideo2模型可应用于视频搜索、游戏控制、机器人学习、自动驾驶和科学研究等多个领域。

关键观点5: 开源生态建设

极市平台致力于开放共享,除了发布InternVideo2模型外,还提供了常用的对话模型和一些专用的小模型。全系模型和相关代码已经全面开源,供公众试用。


文章预览

↑ 点击 蓝字  关注极市平台 |极市线上分享第134期 | 一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过 100 位技术大咖嘉宾,并完成了 133  期极市线上直播分享。 往期分享请前往 bbs.cvmart.net/topics/149 或直接 阅读原文 ,也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享,与大家一起交流学习~~ 本次分享我们邀请到了 上海人工智能实验室通用视觉中心(OpenGVLab)青年研究员王毅 ,为大家详细 介绍他们在视频理解上的探索工作: 视频理解是计算机视觉领域的关键研究方向,拥有广泛的应用场景,例如视频搜索、游戏控制、机器人学习、自动驾驶和科学研究等。 近年来,大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的发展对视觉研究和其他学科产生了深远的影响。 将视频有效地嵌入这些大型模型中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览