文章预览
AI挑战中国高考 包括 OpenAI 的 ChatGPT-4o 在内的七款顶尖语言模型接受了一项特别的挑战:参加了中国高考。这些模型在英语和语文科目中展现了不俗的实力,但数学科目却是它们的软肋,所有参试的模型都未能通过数学考试。 OpenCompass测试 这次测试由上海人工智能实验室的评估系统 OpenCompass 执行,涵盖了来自阿里巴巴集团、智谱 AI 、上海人工智能实验室以及法国 Mistral AI 等开发的开源模型。上海人工智能实验室认为,中国的大学入学考试以其严格的标准,是检验语言大模型( LLM )智能水平的绝佳方式。值得一提的是,这些考试全部由人工评分,而评卷老师并不知道答卷来自机器。考试内容不仅包括选择题,还有主观题。 据 OpenCompass 最新发布的成绩单显示,阿里巴巴的 Qwen 2-72B 以其卓越的表现领跑,三科总分 420 分中获得了 303 分。紧随其后的是
………………………………