专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Bench：最强模型仅有21%准确率

新智元 · 公众号 · AI · 2024-09-25 14:27

文章预览

新智元报道编辑：LRS 【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到60%，最难任务准确率仅有21% 大模型的能力越来越强，用户在一些重要的任务中也可以依赖大模型，比如说辅助做科研。不过现有科研辅助相关的基准测试都太简单，跟现实世界的任务差距还是比较大的。最近，普林斯顿大学的研究人员发布了一个新的基准测试CORE-Bench（Computational Reproducibility Agent Benchmark，计算可重复性智能体基准测试），主要关注模型在处理科研问题中的计算可重复/可复现（computational reproducibility）的问题。论文链接： https://arxiv.org/pdf/2409.11363v1 对其他论文进行重复是科研活动的基础，研究人员需要使用提供的代码和数据来对 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 刚刚，北大校友破解125年数学世纪难题！联手科大少年班天才，菲尔兹奖预定

昨天

爱可可-爱生活 · 今日推介(第1700期)：扩展基于流的蛋白质结构生成模型、通过几-20250305061731

昨天

黄建同学 · MIT 大牛 Kaiming He 何恺明讨论了 AI 在降低-20250304215712

2 天前

OpenCV学堂 · 【效果震撼】Ollama多模态视觉大模型应用

3 天前

OpenCV学堂 · 【效果震撼】Ollama多模态视觉大模型应用

3 天前

宝玉xp · 回复@雪夜闭门读金属:一边使用AI提升效率，一边积累经验当专家/-20250303113607

3 天前

中经视野 · 超级元气工厂：毛绒潮玩开创者，“萌”动千亿级潮玩市场

7 月前

购机帮你评 · 国际品牌7000元价位游戏本，这俩算是均衡之选

6 月前