ALANAVLM：一种用于自我中心视频理解的多模态具身智能基础模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-10-28 07:36

文章预览

24年6月来自 Alana AI 的论文“ALANAVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding”。通过机器人或可穿戴设备部署的 AI 个人助理，需要具身理解才能与人类有效协作。然而，当前的视觉-语言模型 (VLM) 主要关注第三人称视角视频，而忽略以自我为中心感知体验的丰富性。故此，本文首先引入以自我为中心的视频理解数据集 (EVUD) ，用于训练 VLM 完成特定于以自我为中心视频的视频字幕和问答任务。其次，本文提出 ALANAVLM ，一个使用参数高效方法在 EVUD 上训练的 7B 参数 VLM 。最后，本文在 OpenEQA，具身视频问答领域具有挑战性的基准，评估 ALANAVLM 的能力，该模型比开源模型（包括使用 GPT-4 作为规划器的 Socratic 模型）高出 3.6%。在嵌入式AI个人助理，例如智能眼镜（或供盲人和视力不佳者使用的可穿戴相机）的场景中，希望构建能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

重庆电力交易中心 · 关于查询2025年年度电力市场化交易结果的通知

17 小时前

华龙网 · 今天！见证重庆民航历史时刻！

22 小时前

华龙网 · 今天！见证重庆民航历史时刻！

22 小时前

重庆电力交易中心 · 重庆2025年批发市场年度交易预出清均价

2 天前

中古史 · 陝西師範大學牛致功（1928-2024）先生逝世，致哀！

3 月前

兰台劳动 · 保险业劳动争议焦点汇编|个人保险代理人与保险公司之间劳动关系认定争议

2 月前