专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

想纠正LMM犯错？没用！NUS华人团队：最强o1反馈修正率不到50%

新智元 · 公众号 · AI · 2025-03-16 11:28

主要观点总结

新加坡国立大学华人团队提出了InterFeedback框架，用于评估大规模多模态模型（LMM）在人类反馈下的表现。该框架包括InterFeedback-Bench基准测试和InterFeedback框架两部分。研究表明，LMM通过人类反馈纠正结果的比例不到50%，且现有模型在解释和整合反馈方面表现欠佳。InterFeedback框架通过模拟人类反馈，让LMM在交互环境中进行测试和学习。数据集构建方面，采用了MathVerse和MMMU-Pro数据集。此外，除了自动基准测试外，还收集了InterFeedback-Human数据集进行人工评估。实验结果表明，交互式过程能提升大多数LMM解决难题的性能，但纠错率仍不高，且模型在通过反馈提升自身性能方面存在困难。同时，反馈质量对模型性能的影响也非常重要。

关键观点总结

关键观点1: InterFeedback框架的应用及意义

该框架旨在评估LMM在交互智能方面的表现，对于开发通用AI助手至关重要。

关键观点2: InterFeedback框架的组成部分

包括InterFeedback-Bench基准测试和InterFeedback框架两部分，旨在全面评估LMM交互式问题解决和反馈学习的能力。

关键观点3: LMM通过人类反馈纠正结果的比例

研究显示，LMM通过人类反馈纠正结果的比例不到50%，表明现有模型在解释和整合反馈方面存在不足。

关键观点4: InterFeedback框架如何工作

通过模拟人类反馈，让LMM在交互环境中进行测试和学习。包括两个角色：反馈接收者M_r和反馈提供者M_p。

关键观点5: 数据集构建的重要性及方法

采用MathVerse和MMMU-Pro数据集，并收集InterFeedback-Human数据集进行人工评估。

关键观点6: 实验结果的发现

交互式过程能提高大多数LMM的性能，但纠错率仍不高，且模型在通过反馈提升自身性能方面存在困难。反馈质量对模型性能的影响也非常重要。

文章预览

新智元报道编辑：英智【新智元导读】 LMM在人类反馈下表现如何？新加坡国立大学华人团队提出InterFeedback框架，结果显示，最先进的LMM通过人类反馈纠正结果的比例不到50%！大规模多模态模型（Large Multimodal Models，LMM）在人类反馈下的表现如何？这一问题对于利用LMM开发通用AI助手至关重要，现有的基准测试并未针对LMM与人类的交互智能进行测试。来自新加坡国立大学的华人团队提出了InterFeedback，一个可应用任何LMM和数据集的交互式框架。论文链接：https://arxiv.org/abs/2502.15027 在此基础上，团队引入了InterFeedback-Bench，用两个具有代表性的数据集（MMMU-Pro和MathVerse）来评估交互智能，并对10种不同的LMM进行测试。 InterFeedback-Bench旨在全面评估LMM： 1）交互式解决问题的能力； 2）解释反馈以提升自身的能力。评估结果表明，最先进的LMM通过人 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博