专栏名称: AI创业伙伴
AI时代已经来临,做大时代变局的清醒者。
今天看啥  ›  专栏  ›  AI创业伙伴

首个包括GPT4o的AI高考全卷测评结果:最高分303,数学全不及格

AI创业伙伴  · 公众号  ·  · 2024-06-21 13:16
    

文章预览

AI挑战中国高考 包括 OpenAI 的 ChatGPT-4o 在内的七款顶尖语言模型接受了一项特别的挑战:参加了中国高考。这些模型在英语和语文科目中展现了不俗的实力,但数学科目却是它们的软肋,所有参试的模型都未能通过数学考试。 OpenCompass测试 这次测试由上海人工智能实验室的评估系统 OpenCompass 执行,涵盖了来自阿里巴巴集团、智谱 AI 、上海人工智能实验室以及法国 Mistral AI 等开发的开源模型。上海人工智能实验室认为,中国的大学入学考试以其严格的标准,是检验语言大模型( LLM )智能水平的绝佳方式。值得一提的是,这些考试全部由人工评分,而评卷老师并不知道答卷来自机器。考试内容不仅包括选择题,还有主观题。 据 OpenCompass 最新发布的成绩单显示,阿里巴巴的 Qwen 2-72B 以其卓越的表现领跑,三科总分 420 分中获得了 303 分。紧随其后的是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览