文章预览
今天给大家带来知乎@真中合欢的一篇文章,《LLM实践--数据去重:Simhash 原理分析 & 代码实现》 知乎:https://zhuanlan.zhihu.com/p/739101179 数据处理是LLM pretrain的核心环节,去重又是数据处理的重要组成部分,这篇文章就分享一下数据去重的一般做法。我写东西的主要是想学会什么,而仅仅是了解什么,所以回答和文章大多都会附上代码,这篇也是一样。这个系列的文章估计废话会比较多。 数据去重大致可以分为三个粒度:文档粒度、段落粒度和句子粒度。 顾名思义,文档粒度就是以文档为单位,删除重复文档。这种做法最为普遍,主要是为了删除完全重复或几乎一致的文档,这种文档一般来自于相同文档的不同源发布转载、重复爬取等。段落粒度和文档粒度没有特别本质的差别,一般适用于一些特殊的源和场景,比如法律相关的文档大量引述法条这
………………………………