专栏名称: 菜鸟教程
学的不仅是技术,更是梦想!
今天看啥  ›  专栏  ›  菜鸟教程

首个AI高考全卷评测结果发布,数学全部不及格,成最大难题!

菜鸟教程  · 公众号  ·  · 2024-06-20 10:30
    

文章预览

首个 AI 高考全卷评测结果已经发布,Qwen2-72B、GPT-4o 及书生·浦语2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲。 大部分大模型在语文和英语科目上表现良好,但在数学科目上还有待加强。 在语文和英语科目上,AI 展现出了较强语言能力,阿里巴巴开源的 Qwen2 系列 MoE 对话模型、GPT-4o 以及书生·浦语2.0 等模型在这两个科目上的平均得分均超过了 105 分,显示出 AI 在理解和生成语言方面的潜力。 Qwen2-72B 语文达到了 124分,英语 109 分。 GPT-4o 语 文 111.5  分, 英语达到了  111.5  分。 然而,当转向数学科目时,AI 的表现却不尽如人意,InternLM2-20B-WQX 在数学单科上排第一为 75 分, GPT-4o 与  Qwen2-72B 分别为 73 分和 70 分, 所有参与评测的AI模型在数学上均未达到及格线。 这一结果凸显了 AI 在复杂推理和计算能力上的局限性。 尽管 AI 在数学上 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览