文章预览
OpenAI 今天发布了一个名为 MLE-bench 的基准测试,专门用来测试 AI Agent 的机器学习工程能力!这是要让 AI 自己训练模型、准备数据集、跑实验的节奏吗?!🤯 MLE-bench 是什么? MLE-bench 是一个离线的 Kaggle 竞赛( 机器学习比赛 ) 环境,包含 75 个来自 Kaggle 的机器学习工程相关的竞赛任务,涵盖了自然语言处理、计算机视觉、信号处理等多个领域 AI Agent 在这个环境中就像参加真实的 Kaggle 竞赛一样,需要理解比赛描述、处理数据集、训练模型、提交结果,最终根据排行榜上的得分来评估其能力 OpenAI 为什么要搞这个? 他们想要一个更全面的基准测试来评估 AI Agent 在自动机器学习工程方面的进展,并将其与人类水平进行比较。毕竟,如果 AI 真的能自主完成机器学习工程任务,那将极大地加速科学进步!🚀 MLE-bench 的设计思路: 挑战性: 选择的任务
………………………………