专栏名称: Hugging Face
The AI community building the future.
今天看啥  ›  专栏  ›  Hugging Face

在 Hub 上使用 Presidio 进行自动 PII 检测实验

Hugging Face  · 公众号  ·  · 2024-07-30 10:30
    

文章预览

我们在 Hugging Face Hub 上托管的机器学习 (ML) 数据集中发现了一个引人关注的现象: 包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。 在本篇博客中,我们将深入探讨含有一种称为个人识别信息 (PII) 的私密信息的各类数据集,分析这些数据集存在的问题,并介绍我们在数据集 Hub 上正在测试的一个新功能,旨在帮助应对这些挑战。 包含个人识别信息 (PII) 的数据集类型 我们注意到包含个人识别信息 (PII) 的数据集主要有两种类型: 标注的 PII 数据集 : 例如由 Ai4Privacy 提供的 PII-Masking-300k ,这类数据集专门用于训练 PII 检测模型。这些模型用于检测和掩盖 PII,可以帮助进行在线内容审核或提供匿名化的数据库。 https://hf.co/datasets/ai4privacy/pii-masking-300k 预训练数据集 : 这些通常是大规模的数据集,往往有数 TB 大小,通常通过网 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览