LLM实践系列-数据去重之Simhash&Minhash分析与实现

NLP工作站 · 公众号 · · 2024-10-14 13:13

文章预览

今天给大家带来知乎@真中合欢的一篇文章，《LLM实践--数据去重：Simhash 原理分析 & 代码实现》知乎：https://zhuanlan.zhihu.com/p/739101179 数据处理是LLM pretrain的核心环节，去重又是数据处理的重要组成部分，这篇文章就分享一下数据去重的一般做法。我写东西的主要是想学会什么，而仅仅是了解什么，所以回答和文章大多都会附上代码，这篇也是一样。这个系列的文章估计废话会比较多。数据去重大致可以分为三个粒度：文档粒度、段落粒度和句子粒度。顾名思义，文档粒度就是以文档为单位，删除重复文档。这种做法最为普遍，主要是为了删除完全重复或几乎一致的文档，这种文档一般来自于相同文档的不同源发布转载、重复爬取等。段落粒度和文档粒度没有特别本质的差别，一般适用于一些特殊的源和场景，比如法律相关的文档大量引述法条这 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

河南新闻广播 · 河南文物之窗︱城隍文化与礼制建筑代表——彰德府城隍庙

昨天

河南省文化和旅游厅 · 河南将发放第一期新春文旅、住宿类消费券

昨天

河南省文化和旅游厅 · 河南将发放第一期新春文旅、住宿类消费券

昨天

河南省文化和旅游厅 · “冬游河南·踏雪寻梅”2025河南温泉旅游季在许昌鄢陵启动

昨天

河南省文化和旅游厅 · “冬游河南·踏雪寻梅”2025河南温泉旅游季在许昌鄢陵启动

昨天

河南新闻广播 · 最新！河南消费补贴政策公布

2 天前

我是二姐夫 · 疯了吧，萝卜特，这你也敢评？ -20240727004650

5 月前

环境人Environmentor · 南方科技大学环境科学与工程学院环境质谱分析课题组2024年博士后招聘启事

1 月前