专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

机器之心  · 公众号  · AI  · 2024-10-02 10:20

主要观点总结

文章介绍了Meta和佐治亚理工大学的研究者提出的新问题:如何基于用户的问题和当前场景的照片,生成第一视角的动作图像以更准确地指导用户执行下一步行动。文章还详细描述了LEGO模型的结构和方法,该模型可以在两个大型数据集上生成准确的动作图像。

关键观点总结

关键观点1: 研究背景

随着大语言模型逐渐获得理解图片的能力,提出一种更简单直接的方法,通过生成一张图片来给用户展示如何执行下一步,从而提高人们的学习效率。

关键观点2: 研究问题

如何基于用户的问题和当前场景的照片,生成同一场景下的第一视角的动作图像,以更准确地指导用户执行下一步行动。

关键观点3: 解决方法

使用第一视角的动作数据对大语言模型进行微调,以丰富动作的具体细节,同时使用大语言模型的图像和文本特征作为扩散模型的额外输入,缩小训练数据与任务数据之间的差距。

关键观点4: 模型方法

LEGO模型分为两个步骤:基于视觉指令的微调大语言模型和动作图像生成。前者利用图片信息和用户问题生成详细动作指令;后者使用隐空间扩散模型进行图像生成。

关键观点5: 实验结果

LEGO模型在两个大型数据集和多个指标上取得了目前最好的效果,用户评测结果表明超过60%的用户认为LEGO生成的图片最符合他们的需求。


文章预览

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本文的作者主要来自于 Meta 和佐治亚理工大学。 第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转入 UIUC),主要研究方向是多模态学习,生成模型和视频理解,并在 CVPR、ECCV、BMVC、ACL 等会议发表相关论文,参与 Meta 主导的 EgoExo4D 项目,本文工作是赖柏霖在 Meta 的 GenAI 部门实习时完成,其余作者均为 Meta 的研究科学家。 作者主页: https://bolinlai.github.io/ 当人们在日常生活和工作中需要完成一项自己不熟悉的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览