专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

出分了!首个AI高考全卷评测结果发布

魔搭ModelScope社区  · 公众号  ·  · 2024-06-21 20:40
    

文章预览

高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一,成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。 2024年全国高考甫一结束,司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷, 参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。 同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。 首个大模型高考全卷评测结果显示,Qwen2-72B、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲 ,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但在数学方面还有很大的提升空间。其中,InternLM2-20B-WQX取得了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览