专栏名称: 架构师之路
架构师之路,坚持撰写接地气的架构文章
今天看啥  ›  专栏  ›  架构师之路

超经典,网页判重核心技术!(第25讲)

架构师之路  · 公众号  · 架构  · 2024-12-19 08:10
    

文章预览

《架构师之路:架构设计中的100个知识点》 25.网页判重核心技术,LSH,minhash,分句 如何快速判断,1个网页是否属于1亿个网页中的重复网页? 答:预处理, 每个网页用一个hash签名代替 。 问题就转化为,判断1个hash签名是否属于某个hash签名集合,复杂度就大大降低了。 有些网页,99%的内容一样,1%的内容不同(例如html标签),业务上也必须判断为相同的网页,此时要怎么办? hash 的 原则 是, 两个网页哪怕只有1bit的差异,其hash值差别也非常大 ,它只适合用 作完整性检查 。 网页只有少量不同,也必须判断为相同的网页,本质上是 相似性判断 , 如此一来,hash签名方案就行不通了。 有没有一种hash,内容越相似,hash值也越相似呢? 有。局部敏感哈希 (Locality Sensitive Hash) LSH,就是这样一种hash。 局部敏感哈希,能不能举个例子? minhash就是一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览