专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
今天看啥  ›  专栏  ›  新智元

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

新智元  · 公众号  · AI  · 2025-03-16 11:28
    

主要观点总结

新加坡国立大学华人团队提出了InterFeedback框架,用于评估大规模多模态模型(LMM)在人类反馈下的表现。该框架包括InterFeedback-Bench基准测试和InterFeedback框架两部分。研究表明,LMM通过人类反馈纠正结果的比例不到50%,且现有模型在解释和整合反馈方面表现欠佳。InterFeedback框架通过模拟人类反馈,让LMM在交互环境中进行测试和学习。数据集构建方面,采用了MathVerse和MMMU-Pro数据集。此外,除了自动基准测试外,还收集了InterFeedback-Human数据集进行人工评估。实验结果表明,交互式过程能提升大多数LMM解决难题的性能,但纠错率仍不高,且模型在通过反馈提升自身性能方面存在困难。同时,反馈质量对模型性能的影响也非常重要。

关键观点总结

关键观点1: InterFeedback框架的应用及意义

该框架旨在评估LMM在交互智能方面的表现,对于开发通用AI助手至关重要。

关键观点2: InterFeedback框架的组成部分

包括InterFeedback-Bench基准测试和InterFeedback框架两部分,旨在全面评估LMM交互式问题解决和反馈学习的能力。

关键观点3: LMM通过人类反馈纠正结果的比例

研究显示,LMM通过人类反馈纠正结果的比例不到50%,表明现有模型在解释和整合反馈方面存在不足。

关键观点4: InterFeedback框架如何工作

通过模拟人类反馈,让LMM在交互环境中进行测试和学习。包括两个角色:反馈接收者M_r和反馈提供者M_p。

关键观点5: 数据集构建的重要性及方法

采用MathVerse和MMMU-Pro数据集,并收集InterFeedback-Human数据集进行人工评估。

关键观点6: 实验结果的发现

交互式过程能提高大多数LMM的性能,但纠错率仍不高,且模型在通过反馈提升自身性能方面存在困难。反馈质量对模型性能的影响也非常重要。


文章预览

   新智元报道   编辑:英智 【新智元导读】 LMM在人类反馈下表现如何?新加坡国立大学华人团队提出InterFeedback框架,结果显示,最先进的LMM通过人类反馈纠正结果的比例不到50%! 大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何? 这一问题对于利用LMM开发通用AI助手至关重要,现有的基准测试并未针对LMM与人类的交互智能进行测试。 来自新加坡国立大学的华人团队提出了InterFeedback,一个可应用任何LMM和数据集的交互式框架。 论文链接:https://arxiv.org/abs/2502.15027 在此基础上,团队引入了InterFeedback-Bench,用两个具有代表性的数据集(MMMU-Pro和MathVerse)来评估交互智能,并对10种不同的LMM进行测试。 InterFeedback-Bench旨在全面评估LMM: 1)交互式解决问题的能力; 2)解释反馈以提升自身的能力。 评估结果表明,最先进的LMM通过人 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章