今天看啥  ›  专栏  ›  SparksofAGI

MIT、清华、剑桥等发布元推理能力评测集:从答题到阅卷,还以MMLU评测大模型你就out了

SparksofAGI  · 公众号  ·  · 2024-07-11 13:10
    

文章预览

MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models MIT、清华、剑桥等发布元推理能力评测集: 从答题到阅卷,还以MMLU评测大模型你就out了 ‍‍‍‍‍ 太长不看版: 本工作联合MIT,清华,剑桥,爱丁堡,港中文等知名院校, 提出了一个评测模型对复杂问题的推理过程的“阅卷”批改能力的评测数据集,有别于以前的以结果匹配为评测模式的数据集MR-Ben,我们的数据集基于GSM8K[1], MMLU[2], LogiQA[3], MHPP[4]等数据集经由细致的高水平人工标注构建而成, 显著地增加了难度及区分度 。(项目链接见文末) Project Page:  https://github.com/Randolph-zeng/Mr-Ben.github.io Arxiv Page:  https://arxiv.org/abs/2406.13975 Github Repo:  https://github.com/dvlab-research/Mr-Ben Twitter:  https://x.com/Ruiss1/status/1806317002564219200 自从chatgpt发布以来,就在学术界和产业界掀起了惊涛骇浪。可以说每月甚至每周 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览