专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

新智元  · 公众号  · AI  · 2024-09-25 14:27

文章预览

   新智元报道   编辑:LRS 【新智元导读】 普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确率可以达到60%,最难任务准确率仅有21%   大模型的能力越来越强,用户在一些重要的任务中也可以依赖大模型,比如说辅助做科研。 不过现有科研辅助相关的基准测试都太简单,跟现实世界的任务差距还是比较大的。 最近,普林斯顿大学的研究人员发布了一个新的基准测试CORE-Bench(Computational Reproducibility Agent Benchmark,计算可重复性智能体基准测试),主要关注模型在处理科研问题中的计算可重复/可复现(computational reproducibility)的问题。 论文链接: https://arxiv.org/pdf/2409.11363v1 对其他论文进行重复是科研活动的基础,研究人员需要使用提供的代码和数据来对 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览