今天看啥  ›  专栏  ›  3D视觉之心

动态 3D 场景理解要理解什么?Embodied VideoAgent来揭秘!

3D视觉之心  · 公众号  ·  · 2025-01-20 07:00
    

文章预览

作者 | 具身智能之心 点击下方 卡片 ,关注“ 3D视觉之心 ”公众号 第一时间获取 3D视觉干货 >> 点击进入→ 3D视觉之心技术交流群 假设你在玩一款游戏,你是一个在充满谜题和任务的神秘城堡中探索的冒险者。 在这个城堡中,每个房间都像是视频中的一个场景,里面布满了各种物品和线索。 城堡的主人提出一个任务,比如 “ 我需要找到某个特定的魔法宝石并将它放置在城堡的特定位置 ”,这时你就开始探索,完成城堡主人的任务。 但你可能会发现城堡内的道路错综复杂,像在走迷宫,根本找不到宝石,更别说放到目标位置。 来源: https://v.douyin.com/iyTJ5fPE/ 这时,VideoAgent 就来帮忙了! VideoAgent 利用其构建的场景记忆(就如同它在城堡中绘制的详细地图),从以自我为中心的视频和具身感官输入中收集信息,就像冒险者在房间里仔细观察每一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览