专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
今天看啥  ›  专栏  ›  爱可可-爱生活

AI基准任务“阵亡”录:那些曾经定义和衡量AI能力的标杆任务,已-20250106103608

爱可可-爱生活  · 微博  · AI  · 2025-01-06 10:36
    

文章预览

2025-01-06 10:36 本条微博链接 AI基准任务“阵亡”录:那些曾经定义和衡量AI能力的标杆任务,已经被AI一一打败。 2024年,多个经典的基准测试被最新的LLM攻破: - ARC-AGI: 抽象推理挑战在存活5年零1个月后被O3模型以87.6%的成绩超越 - MATH: 历经3年6个月,这套含12K道高难度数学题的考验被O1模型以94.8%的成绩征服 - BIG-Bench-Hard: 仅仅1年8个月,这23个极具挑战性的语言任务就被Claude Sonnet 3.5以93.1%的惊人表现攻克 - HumanEval: Pytho ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览