文章预览
MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models MIT、清华、剑桥等发布元推理能力评测集: 从答题到阅卷,还以MMLU评测大模型你就out了 太长不看版: 本工作联合MIT,清华,剑桥,爱丁堡,港中文等知名院校, 提出了一个评测模型对复杂问题的推理过程的“阅卷”批改能力的评测数据集,有别于以前的以结果匹配为评测模式的数据集MR-Ben,我们的数据集基于GSM8K[1], MMLU[2], LogiQA[3], MHPP[4]等数据集经由细致的高水平人工标注构建而成, 显著地增加了难度及区分度 。(项目链接见文末) Project Page: https://github.com/Randolph-zeng/Mr-Ben.github.io Arxiv Page: https://arxiv.org/abs/2406.13975 Github Repo: https://github.com/dvlab-research/Mr-Ben Twitter: https://x.com/Ruiss1/status/1806317002564219200 自从chatgpt发布以来,就在学术界和产业界掀起了惊涛骇浪。可以说每月甚至每周
………………………………