文章预览
8300万条数据,83秒完成去重! 这不是科幻,而是HuggingFace最新开源的语义去重神器SemHash的真实表现。 当我们谈论大语言模型训练时,数据质量往往被忽视。 重复的数据就像是给模型喂了一堆复印件 ,不仅浪费训练资源,还可能导致模型产生偏见。 但现在,这个问题有了解决方案! HuggingFace的技术主管Philipp Schmid发布了一个「 神器级 」的开源库: SemHash 。 它不仅能找出完全重复的数据,还能识别那些 意思相近但表达不同的文本 。 最让人兴奋的是它的速度: 仅用83秒就完成了180万条WikiText数据的去重 ! 这是什么概念? ——相当于每秒处理2.2万条数据! 为什么SemHash这么快? 秘密在于它的「 双核引擎 」: Model2Vec :负责生成文本嵌入向量 Vicinity :通过ANN(近似最近邻)技术进行相似度搜索 这种组合让SemHash不仅能跑得快,还跑得准。在17个数据
………………………………