出分了！首个AI高考全卷评测结果发布

魔搭ModelScope社区 · 公众号 · · 2024-06-21 20:40

文章预览

高考覆盖各类学科及题型，同时因其开考前的“绝密性”，被视作中国最具权威的考试之一，成为评估考生综合能力的“试金石”。这一面向人类设计的高难度综合性测试，目前普遍被研究者用于考察大模型的智能水平。 2024年全国高考甫一结束，司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。首个大模型高考全卷评测结果显示，Qwen2-72B、GPT-4o及书生·浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过70%。大部分模型“考生”语文、英语科目表现良好，但在数学方面还有很大的提升空间。其中，InternLM2-20B-WQX取得了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

鲁中晨报 · 多位高管离职！消息属实

8 小时前

山东环境 · 建设美丽山东 | 滨州：八美共建绘新景向绿向新向未来

16 小时前

山东环境 · 建设美丽山东 | 滨州：八美共建绘新景向绿向新向未来

16 小时前

德州晚报 · 今天，别忘了咱们的老讲究！

18 小时前

德州晚报 · 德州21个！山东城镇老旧小区改造计划公布

19 小时前

新黄河 · 山东2024年GDP达到9.86万亿元

2 天前

连享会 · 9月3日公开课：空间计量建模的近期趋势、架构要点与误区规避

4 月前