专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

规避“垃圾”数据,MIT开发新工具帮助甄选合适的训练数据集

DeepTech深科技  · 公众号  · 科技媒体  · 2024-09-03 15:17
    

文章预览

(来源:MIT News) 为了训练更强大的大型语言模型(LLM),研究者们使用了来自数千个网络来源的海量数据集。 但随着这些数据集被不断组合和重新组合,关于它们来源的重要信息以及使用的限制往往在过程中丢失或混淆。 这除了会引发法律和伦理问题外,还可能影响模型的性能。具体来说,如果一个数据集被错误分类,训练机器学习模型的人可能会在不知情的情况下使用不适合该任务的数据。 此外,来源不明的数据可能包含偏见,导致模型在实际应用中做出不公平的预测。 为提高数据透明度,MIT 及其他机构的一个跨学科研究团队对 1800 多个常见数据集进行了系统审计,发现超过 70% 的数据集缺少某些许可信息,约 50% 的数据集包含错误信息。 基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好的工具,该工具能够自动生成 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览