专栏名称: 腾讯科技
只供应最有营养的科技大餐!
今天看啥  ›  专栏  ›  腾讯科技

o3权威评测报告:AI能力实现关键跃升,但仍未达到AGI水平

腾讯科技  · 公众号  · 科技媒体  · 2024-12-21 10:34
    

文章预览

12月21日消息,OpenAI发布最新一代推理模型o3的同一天,知名法国计算机科学家和机器学习研究者、ARC Prize基金会的创始人弗朗索瓦·肖莱(François Chollet)撰写报告称,o3在ARC-AGI基准测试中取得了突破性高分。ARC-AGI是一个专门设计用来测试人工智能模型对极其困难的数学和逻辑问题进行推理的能力的基准测试。 肖莱在报告中指出,OpenAI最新推出的o3模型,在基于ARC-AGI-1公共训练集的训练下,在遵守公开排行榜规定的1万美元计算限制(compute limit)的前提下,在半私有评估集上取得了75.7%的突破性高分。而在高计算量(172倍)配置下的o3模型,得分更是达到了87.5%。 这一成绩标志着人工智能能力出现了令人震惊且关键的跃升,展现出GPT系列模型中前所未有的新任务适应能力。举例来说,在ARC-AGI-1的测试中,得分从2020年GPT-3的0%增长到2024年GPT-4o的5%,这一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览