多模态大模型最新论文介绍

汽车未来科技Lab · 公众号 · · 2024-12-25 10:00

文章预览

1.Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection Authors: Wentao Bao, Kai Li, Yuxiao Chen, Deep Patel, Martin Renqiang Min, Yu Kong https://arxiv.org/abs/2411.10922 内容介绍：动作检测旨在在视频中从空间和时间上检测（识别和定位）人类动作。现有方法主要关注闭集设置，即在一个固定动作类别的视频集上训练并测试动作检测器。然而，在开放世界中，测试视频不可避免地会超出训练的动作类别，因此这种受限的设置并不可行。在本文中，我们解决了实际且具挑战性的开放词汇动作检测（OVAD）问题。该问题的目标是在使用固定动作类别集训练模型的同时，检测测试视频中的任何动作。为了实现这种开放词汇的能力，我们提出了一种新方法OpenMixer，该方法利用基于查询的检测变换器（DETR）系列中大型视觉语言模型（VLM）的固有语义和可定位性。具体而言，Ope ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博