文章预览
今日更新12篇: 计算机视觉 11篇 自然语言处理 1篇 如果你想增加某个领域或会议的收集,可以后台私信。 计算机视觉: 11篇 [0] HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization[cs.CV] 标题:HAT:基于历史的锚点变换器用于在线时序动作定位 作者:Sakib Reza, Yuexi Zhang, Mohsen Moghaddam, Octavia Camps 链接:http://arxiv.org/abs/2408.06437 摘要 :在线视频理解通常依赖于单个帧,导致逐帧预测。最近的发展,如在线时序动作定位(OnTAL),将这一方法扩展到实例级预测。然而,现有方法主要关注短期上下文,忽视了历史信息。为了解决这一问题,我们为OnTAL引入了历史增强锚点变换器(HAT)框架。通过整合历史上下文,我们的框架增强了长期和短期信息之间的协同,提高了对分类和定位至关重要的锚点特征质量。我们在程序性自体中心(PREGO)数据集(EGTEA
………………………………