文章预览
《架构师之路:架构设计中的100个知识点》 25.网页判重核心技术,LSH,minhash,分句 如何快速判断,1个网页是否属于1亿个网页中的重复网页? 答:预处理, 每个网页用一个hash签名代替 。 问题就转化为,判断1个hash签名是否属于某个hash签名集合,复杂度就大大降低了。 有些网页,99%的内容一样,1%的内容不同(例如html标签),业务上也必须判断为相同的网页,此时要怎么办? hash 的 原则 是, 两个网页哪怕只有1bit的差异,其hash值差别也非常大 ,它只适合用 作完整性检查 。 网页只有少量不同,也必须判断为相同的网页,本质上是 相似性判断 , 如此一来,hash签名方案就行不通了。 有没有一种hash,内容越相似,hash值也越相似呢? 有。局部敏感哈希 (Locality Sensitive Hash) LSH,就是这样一种hash。 局部敏感哈希,能不能举个例子? minhash就是一
………………………………