专栏名称: 架构师之路
架构师之路,坚持撰写接地气的架构文章
目录
相关文章推荐
架构师之路  ·  1743天,299万... ·  昨天  
今天看啥  ›  专栏  ›  架构师之路

Google如何能搜出1分钟之前的新闻???(第29讲)

架构师之路  · 公众号  · 架构  · 2024-12-27 12:10
    

文章预览

《架构师之路:架构设计中的100个知识点》 29.实时搜索引擎技术 网页数据量如此庞大,网上新闻更新如此之快,google为什么能搜出1分钟之前新闻? 答:google使用了实时搜索引擎技术。 首先,为了保证海量数据的检索效率,google并 不会实时修改全量索引库,全量索引库是只读的。 既然全量索引是只读的,如何检索出最新的网页呢? 这里面有两个架构设计核心: 其一, 索引分级 ; 其二, dump ; 什么是索引分级? 将索引分为全量索引库、日增量索引库、小时增量索引库: 1. 历史数据放在全量库中,当天数据放在日库中,最近一个小时的数据放在小时库中; 2. 全量库和日库索引紧密存储,无碎片,只读,查询速度快; 3. 小时库数据库小,实时修改索引,查询速度也快。 如何实时更新网页? 如上图所示: 当有写请求发生时,只会操作最低级别 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览