2024-09-19 05:52
本条微博链接
[CL] CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark 网页链接 构建了一个计算可复现性基准测试CORE-Bench,在CodeOcean上获取可复现任务,评估通用与定制Agent,发现简单适配就可大幅提升性能,但准确率仍有很大改进空间,为推动可再现性提供了有效工具。
………………………………