讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

意图驱动的 Ego-to-Exo 视频生成

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-29 00:10

文章预览

24年3月来自中科大和阿里的论文“Intention-driven Ego-to-Exo Video Generation”。 从自我-到-外部(Ego-to-Exo)的视频生成,是指根据以自我为中心的视频,生成相应的以外部为中心的视频,在AR/VR和具身人工智能方面有着很有价值的应用。受益于扩散模型技术的进步,视频生成取得了显著的进展。然而,现有的方法建立在相邻帧之间的时空一致性假设之上,而在从自我到外部的场景中,由于视角的剧烈变化,这一假设无法满足。为此,本文提出了一个意图驱动从自我到外部的视频生成框架(IDE),该框架利用由人体运动和动作描述组成的动作意图作为与视角无关的表示来指导视频生成,从而保持内容和运动的一致性。 具体而言,首先通过多视角立体匹配(MVSM)来估计以自我为中心的头部轨迹。然后,引入跨视图特征感知模块建立外部视图与自我视图之间的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览