专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

我们目前衡量人工智能进步的方式很糟糕

DeepTech深科技 · 公众号 · 科技媒体 · 2024-12-05 10:30

主要观点总结

本文讨论了人工智能基准测试的问题和重要性。许多公司发布的人工智能模型成果通常以一系列基准测试的表现来展示其性能。然而，最新研究表明，这些基准测试存在设计不佳、结果难以复现以及指标使用随意的问题。这些问题可能导致模型评估和监管的误导。一些专家指出，目前的情况就像一个“蛮荒之地”，因为没有好的评估标准。基准测试已经成为政府制定人工智能监管计划的一部分，但其适用性受到质疑。文章还介绍了研究人员对基准测试质量的关注，他们试图找到构建良好测试的关键，并评估当前使用的测试是否足够可靠。一些组织正在积极改善这种情况，通过设计新的基准测试，包括由专家参与设计和经过严格验证的测试。

关键观点总结

关键观点1: 人工智能基准测试存在的问题

基准测试设计不佳、结果难以复现、指标使用随意，可能导致模型评估和监管的误导。

关键观点2: 基准测试的重要性

基准测试已经成为政府制定人工智能监管计划的一部分，对于人工智能的发展和监管具有重要影响。

关键观点3: 研究人员的关注

研究人员对基准测试的质量表示关注，试图找到构建良好测试的关键，并评估当前使用的测试是否足够可靠。

关键观点4: 组织的积极改善

一些组织正在积极改善基准测试的情况，通过设计新的基准测试，包括由专家参与设计和经过严格验证的测试，以提高基准测试的质量和适用性。

文章预览

来源：MIT Technology Review 每当一个新的人工智能模型发布时，通常会被宣传为在一系列基准测试中表现出色。例如，OpenAI 的 GPT-4o 在 5 月推出时，展示了一系列结果，表明其性能在多项测试中超过了其他人工智能公司的最新模型。然而，根据最新研究，这些基准测试存在设计不佳、结果难以复现以及往往随意使用指标的问题。这一点非常重要，因为人工智能模型在这些基准测试中的得分会直接影响它们受到的审查和监管程度。 “目前的情况就像是一个‘蛮荒之地’，因为我们并没有好的评估标准，”论文作者之一Anka Reuel 说道。她是斯坦福大学计算机科学专业的博士生，同时也是该校人工智能安全中心的成员。基准测试本质上是一种人工智能需要通过的测试。它可以是多项选择题格式，比如最流行的“多任务语言理解基准”（Massive Multitask Languag ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博