专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

从答题到阅卷,还以MMLU评测大模型你就out了

PaperWeekly  · 公众号  · 科研  · 2024-07-23 12:35

文章预览

©作者 | 中森 单位 | 香港中文大学博士生 研究方向 | 条件受控文本生成 太长不看版: 本工作联合 MIT,清华,剑桥,爱丁堡,港中文等知名院校,提出了一个评测模型对复杂问题的推理过程的“阅卷”批改能力的评测数据集,有别于以前的以结果匹配为评测模式的数据集 MR-Ben,我们的数据集基于 GSM8K [1] , MMLU [2] ,LogiQA [3] ,MHPP [4] 等数据集经由细致的高水平人工标注构建而成,显著地增加了难度及区分度。 项目主页: https://randolph-zeng.github.io/Mr-Ben.github.io/ 论文链接:  https://arxiv.org/abs/2406.13975 代码链接:  https://github.com/dvlab-research/Mr-Ben Twitter:  https:// x.com/Ruiss1/status/1806317002564219200 自从 ChatGPT 发布以来,就在学术界和产业界掀起了惊涛骇浪。可以说每月甚至每周都有新的开源模型问世。日新月异的进展让大家都对通用人工智能(AGI)充满期 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览