MIT、清华、剑桥等发布元推理能力评测集：从答题到阅卷，还以MMLU评测大模型你就out了

SparksofAGI · 公众号 · · 2024-07-11 13:10

文章预览

MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models MIT、清华、剑桥等发布元推理能力评测集：从答题到阅卷，还以MMLU评测大模型你就out了 ‍‍‍‍‍ 太长不看版：本工作联合MIT,清华,剑桥,爱丁堡,港中文等知名院校, 提出了一个评测模型对复杂问题的推理过程的“阅卷”批改能力的评测数据集，有别于以前的以结果匹配为评测模式的数据集MR-Ben，我们的数据集基于GSM8K[1], MMLU[2], LogiQA[3], MHPP[4]等数据集经由细致的高水平人工标注构建而成，显著地增加了难度及区分度。（项目链接见文末） Project Page: https://github.com/Randolph-zeng/Mr-Ben.github.io Arxiv Page: https://arxiv.org/abs/2406.13975 Github Repo: https://github.com/dvlab-research/Mr-Ben Twitter: https://x.com/Ruiss1/status/1806317002564219200 自从chatgpt发布以来，就在学术界和产业界掀起了惊涛骇浪。可以说每月甚至每周 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

乌鸦电影 · 惊爆价！39.9元到手9件！花白菜的钱，养出皇后的脸！

22 小时前

科学家庭育儿 · 3000+超级题库，全部对齐新课标！孩子越玩越聪明！我保证妈妈孩子都会爱上它

昨天

广电独家 · 对话主创｜《友间合租屋》：以陪伴关照少年理想，以现实锻炼青春生活

2 天前

广电独家 · 均为事业编！中国农业电影电视中心公开招聘

4 天前

河北交通广播 · 【992 | 关注】华山景区突发，有游客被困缆车

4 月前

医信头次条 · 智慧医院建设的三大关键领域，构建以服务为核心的智慧医院一体化云平台

3 月前