讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

ALANAVLM:一种用于自我中心视频理解的多模态具身智能基础模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-10-28 07:36
    

文章预览

24年6月来自 Alana AI 的论文“ALANAVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding”。 通过机器人或可穿戴设备部署的 AI 个人助理,需要具身理解才能与人类有效协作。然而,当前的 视觉-语言模型 (VLM) 主要关注第三人称视角视频,而忽略以自我为中心感知体验的丰富性。故此,本文首先引入 以自我为中心的视频理解数据集 (EVUD) ,用于训练 VLM 完成特定于以自我为中心视频的视频字幕和问答任务。其次,本文提出 ALANAVLM ,一个使用参数高效方法在 EVUD 上训练的 7B 参数 VLM 。最后,本文在 OpenEQA,具身视频问答领域具有挑战性的基准,评估 ALANAVLM 的能力,该模型比开源模型(包括使用 GPT-4 作为规划器的 Socratic 模型)高出 3.6%。 在嵌入式AI个人助理,例如智能眼镜(或供盲人和视力不佳者使用的可穿戴相机)的场景中,希望构建能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览