讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

HENASY:学习组装场景-实体,实现可解释自我中心视频-语言模式

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-28 07:36
    

文章预览

24年6月来自阿肯色州立大学的论文“HENASY: Learning to Assemble Scene-Entities for Interpretable Egocentric Video-Language Mode”。 当前的视频-语言模型 (VLM) 广泛依赖于视频和语言模态之间的实例级对齐,这有两个主要限制:(1) 视觉推理违背了人类在第一人称视角中的自然感知,导致缺乏推理解释;(2) 学习受限于在捕捉两种模态之间固有的细粒度关系。 本文从人类感知中汲取灵感,探索一种以自我为中心视频表示的组合方法。引入 分层的实体组装(HENASY),它包括一个时空token分组机制,可以显式地组装随时间动态演变的场景-实体并建模它们的关系表征拍摄的视频。利用组合的结构理解,通过自由格式文本查询的视觉落地,HENASY 拥有很强的可解释性。进一步探索一套多粒度对比损失,促进以实体为中心的理解。这包括三种对齐类型:视频-叙述、名词-实体、动词- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览