今天看啥  ›  专栏  ›  NLP工作站

LLM实践系列-数据去重之Simhash&Minhash分析与实现

NLP工作站  · 公众号  ·  · 2024-10-14 13:13

文章预览

今天给大家带来知乎@真中合欢的一篇文章,《LLM实践--数据去重:Simhash 原理分析 & 代码实现》 知乎:https://zhuanlan.zhihu.com/p/739101179 数据处理是LLM pretrain的核心环节,去重又是数据处理的重要组成部分,这篇文章就分享一下数据去重的一般做法。我写东西的主要是想学会什么,而仅仅是了解什么,所以回答和文章大多都会附上代码,这篇也是一样。这个系列的文章估计废话会比较多。 数据去重大致可以分为三个粒度:文档粒度、段落粒度和句子粒度。 顾名思义,文档粒度就是以文档为单位,删除重复文档。这种做法最为普遍,主要是为了删除完全重复或几乎一致的文档,这种文档一般来自于相同文档的不同源发布转载、重复爬取等。段落粒度和文档粒度没有特别本质的差别,一般适用于一些特殊的源和场景,比如法律相关的文档大量引述法条这 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览