专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
今天看啥  ›  专栏  ›  新智元

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

新智元  · 公众号  · AI  · 2024-08-02 13:09
    

文章预览

   新智元报道   编辑:乔杨 耳朵 【新智元导读】 谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。 大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。 那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但胡言乱语输出质量差,又臭又长,岂不是白搭? 首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要,但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。 考虑到这些因素,谷歌DeepMind研究团队提出了自动评估解决方案FLAMe。 论文地址:https://arxiv.org/abs/2407.10817 模型本身在经历多轮大规模指令任务调整后,可以遵循一套新的指令,使它们适合用作模型输出的自动评估器。 一方面,为了使LLM自动评分更加合理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览