专栏名称: 汽车未来科技Lab
专注汽车前瞻技术与产业,发布深度研究报告与热点信息。
目录
相关文章推荐
今天看啥  ›  专栏  ›  汽车未来科技Lab

多模态大模型最新论文介绍

汽车未来科技Lab  · 公众号  ·  · 2024-12-25 10:00
    

文章预览

1.Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection Authors: Wentao Bao, Kai Li, Yuxiao Chen, Deep Patel, Martin Renqiang Min, Yu Kong https://arxiv.org/abs/2411.10922 内容介绍: 动作检测旨在在视频中从空间和时间上检测(识别和定位)人类动作。现有方法主要关注闭集设置,即在一个固定动作类别的视频集上训练并测试动作检测器。然而,在开放世界中,测试视频不可避免地会超出训练的动作类别,因此这种受限的设置并不可行。在本文中,我们解决了实际且具挑战性的开放词汇动作检测(OVAD)问题。该问题的目标是在使用固定动作类别集训练模型的同时,检测测试视频中的任何动作。为了实现这种开放词汇的能力,我们提出了一种新方法OpenMixer,该方法利用基于查询的检测变换器(DETR)系列中大型视觉语言模型(VLM)的固有语义和可定位性。具体而言,Ope ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览