专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

视频语言如何建模?NUS最新《视频-语言理解:从模型架构、模型训练和数据角度》综述

专知  · 公众号  ·  · 2024-06-12 14:00
    

文章预览

人类使用多种感官来理解环境。视觉和语言是其中两个最重要的感官,因为它们使我们能够轻松地交流思想并感知周围的世界。近年来,人们对创建具有人类感官的视频-语言理解系统产生了浓厚的兴趣, 因为视频-语言对可以模拟我们的语言媒介和具有时间动态的视觉环境。在这篇综述中,我们回顾了这些系统的关键任务,并突出了相关的挑战 。基于这些挑战,我们从模型架构、模型训练和数据的角度总结了它们的方法。我们还对这些方法进行了性能比较,并讨论了未来研究的有前景方向。 视觉和语言构成了我们感知的基本组成部分:视觉使我们能够感知物理世界,而语言则使我们能够描述和讨论它 。然而,世界不仅仅是静态图像,而是展现了随着时间推移,物体移动和交互的动态特性。通过时间维度,视频能够捕捉这些表征物理世界的时间动 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览