今天看啥  ›  专栏  ›  计算机视觉之路

【ReMEmbR:长时序理解】

计算机视觉之路  · 公众号  ·  · 2024-11-21 13:50

文章预览

ReMEmbR(Retrieval-augmented Memory for Embodied Robots)是一种为机器人导航设计的系统,它专注于长时序视频问答,以帮助机器人理解和推理复杂环境中的长期历史信息。以下是ReMEmbR系统的主要特点和方法: 1. 长时序视频问答:ReMEmbR旨在处理长时间内的环境导航和理解问题,使机器人能够回答关于过去事件的位置、时间和描述性问题。 2. 结构化方法:ReMEmbR采用结构化方法,包括记忆构建和查询两个阶段。这种方法利用时间信息、空间信息和图像来有效处理不断增长的机器人历史。 3. 记忆构建阶段:在这一阶段,ReMEmbR使用视觉语言模型(VLM)和向量数据库来构建长视距的语义内存。具体来说,它会截取视频片段,使用NVIDIA VILA为这些片段添加描述,并将它们嵌入到MilvusDB向量数据库中,同时存储机器人的时间戳和坐标信息。 4. 查询阶段:在查询阶段,R ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览