专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

新智元 · 公众号 · AI · 2024-08-02 13:09

文章预览

新智元报道编辑：乔杨耳朵【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。那么问题来了，如何有效地评估大语言模型的长篇大论呢？要是输出长度长了但胡言乱语输出质量差，又臭又长，岂不是白搭? 首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要，但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。考虑到这些因素，谷歌DeepMind研究团队提出了自动评估解决方案FLAMe。论文地址：https://arxiv.org/abs/2407.10817 模型本身在经历多轮大规模指令任务调整后，可以遵循一套新的指令，使它们适合用作模型输出的自动评估器。一方面，为了使LLM自动评分更加合理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博