主要观点总结
北京大学王选计算机研究所提出了多模态提示学习(CMMP)方法,该方法能更准确地理解场景中的任务关系,特别是针对未见的人物交互类型。通过视觉空间线索和条件提示学习,CMMP方法解决了多模态大模型在识别未见人物交互类型时的平衡问题,大幅提升了性能。相关研究来自北大王选计算机技术研究所,相关论文已被ECCV 2024接收。
关键观点总结
关键观点1: 多模态提示学习(CMMP)方法的提出和应用
CMMP方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系,解决了模型在识别未见人物交互类型时的平衡问题。
关键观点2: CMMP方法的特点和优势
CMMP方法通过使用视觉空间线索和条件提示学习,提高了模型的性能,特别是在未见类别上的表现。它提供了一种新的范式,可以微调多模态大模型,使其具备泛化的区域级人物交互关系检测能力。
关键观点3: 相关研究的重要性和影响
相关研究来自北大王选计算机技术研究所,相关论文已被ECCV 2024接收。此外,提出的CMMP方法为零样本人物交互检测提供了新的框架,并在实验上取得了显著成果。
文章预览
北京大学王选计算机研究所雷廷 投稿 量子位 | 公众号 QbitAI 只用提示词,多模态大模型就能更懂场景中的人物关系了。 北京大学最新提出多模态提示学习(Conditional Multi-Modal Prompt, CMMP)方法,利用 提示词工程技术 教会多模态大模型理解区域级的人物交互关系。 在这个过程中,最难的部分在于教会模型识别 未见过的人物交互类型 。 要知道,大多数现有研究都集中在封闭环境,一旦变成更接近现实的开放环境,模型就懵逼了! 比如下图,先前的检测器在平衡已见和未见类别时遇到了困难, 导致调和平均值较低 ,并且在未见类别上的表现较差。 相比之下,CMMP方法有效解决了这一平衡问题,大幅提升了性能,并为未见类别建立了新的最佳性能。 至于CMMP方法如何解决未见类别, 一句话 : 在特征提取过程中使用视觉空间线索,帮助识别未见的人物-
………………………………