主要观点总结
本文报道了名为METR的机构发现的AI智能体的全新摩尔定律。过去6年中,AI完成任务的长度每7个月翻一番,预示五年内将拥有独立自主完成人类数天甚至数周才能完成的软件开发任务的AI研究员。文中详细介绍该研究的方法、结果和引发的讨论,包括衡量AI模型能力的新方法、任务完成时长与模型成功概率的关系、以及AI发展Scaling Law的实用性和预测意义等。
关键观点总结
关键观点1: AI智能体的全新摩尔定律被发现
过去6年中,AI完成任务的能力每7个月翻一番,预示五年内将拥有独立完成软件开发任务的AI研究员。
关键观点2: 衡量AI模型能力的新方法
使用模型完成任务的时间跨度来衡量模型的能力水平。研究者通过设计近170个真实任务,测量人类专家完成任务的时间来预测模型的成功概率。
关键观点3: 任务完成时长与模型成功概率的关系
研究者发现,人类专家完成任务的时间能有效预测模型在特定任务上的成功率。他们通过拟合逻辑斯蒂曲线,确定每个AI智能体在50%成功率下的任务时长。
关键观点4: AI发展Scaling Law的实用性和预测意义
研究发现的Scaling Law对未来AI系统能力的发展趋势具有预测意义。然而,预测的实用价值有限,对所选任务或模型类型的敏感度可能存在争议。
文章预览
新智元报道 编辑:Aeneas 【新智元导读】 这家名为METR的机构,刚刚发现了AI智能体的全新摩尔定律:过去6年中,AI完成任务的长度,每7个月就会翻一番!如此下去,五年内我们就会拥有AI研究员,独立自主完成人类数天甚至数周才能完成的软件开发任务。 就在刚刚,AI智能体的摩尔定律被发现了! METR研究所表示,他们发现了全新的AI智能体Scaling Law—— AI可执行任务的长度,每七个月翻一番。 过去6年中,前沿通用AI智能体完成任务的能力,每7个月就翻倍一次 同时发表的,还有一篇45页论文。 论文地址:https://arxiv.org/abs/2503.14499 这家加州的非营利研究所METR的研究者提出,以AI智能体能完成的任务长度来衡量它们的性能。 他们设计了近170个真实任务,涵盖了编程、网络安全、通用推理和机器学习等领域,并且测量了人类专家所需的时间,建立
………………………………