专栏名称: 学术头条
致力于科学传播和学术分享,关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度,围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。
今天看啥  ›  专栏  ›  学术头条

利好AI大模型!MIT团队推出数据集审查工具DPExplorer,对“不合适”训练数据说no

学术头条  · 公众号  ·  · 2024-09-04 16:10

文章预览

前言 训练数据的质量优劣,直接影响人工智能(AI)大模型的能力水平 。 当前,尽管大模型在文本/图像/视频等内容生成和理解等领域不断取得新突破,但由于数据来源的透明性不足,虚假信息泛滥和幻觉问题依然存在。 这可能会导致大模型性能下降,出现数据偏差、隐含偏差或行为失真等现象,还可能引发版权纠纷等法律问题。 近日, 来自麻省理工学院(MIT)研究团队及其合作者在提高大模型准确性、减少偏差方面取得了新进展 —— 他们开发了一种名为 “Data Provenance Explorer” 的结构化审查工具,其通过自动生成详细的数据来源卡片,帮助 AI 从业者选择更适合其大模型的训练数据。 他们对 1800 多个文本数据集进行了系统审查,发现约 70% 的数据集缺乏必要的许可信息,50% 的数据集包含错误信息。 通过使用这一工具, 他们将无法验证的信息 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览