首个包括GPT4o的AI高考全卷测评结果：最高分303，数学全不及格

AI创业伙伴 · 公众号 · · 2024-06-21 13:16

文章预览

AI挑战中国高考包括 OpenAI 的 ChatGPT-4o 在内的七款顶尖语言模型接受了一项特别的挑战：参加了中国高考。这些模型在英语和语文科目中展现了不俗的实力，但数学科目却是它们的软肋，所有参试的模型都未能通过数学考试。 OpenCompass测试这次测试由上海人工智能实验室的评估系统 OpenCompass 执行，涵盖了来自阿里巴巴集团、智谱 AI 、上海人工智能实验室以及法国 Mistral AI 等开发的开源模型。上海人工智能实验室认为，中国的大学入学考试以其严格的标准，是检验语言大模型（ LLM ）智能水平的绝佳方式。值得一提的是，这些考试全部由人工评分，而评卷老师并不知道答卷来自机器。考试内容不仅包括选择题，还有主观题。据 OpenCompass 最新发布的成绩单显示，阿里巴巴的 Qwen 2-72B 以其卓越的表现领跑，三科总分 420 分中获得了 303 分。紧随其后的是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博