文章预览
前言 搜索是B站的重要基础功能,需要对包括视频、评论、图文等海量的站内优质资源建立索引,处理来自用户每日数亿的检索请求。离线索引数据的正确、高效产出是搜索业务的基础。我们在这里分享搜索离线架构整体的改造实践:从周期长,流程复杂的手工构建流程,改造为高容量、高性能、易迭代的分布式建库架构的过程。 业务背景 B站是一个典型的多资源搜索场景,除了视频外,还接入了包括UP主、番剧影视(PGC)、直播等几十种不同类型的资源。除了资源类型多以外,各种资源的数据源的形式也多种多样,包括数据库、上游业务接口、Hive表等等。这些数据通过离线近线的聚合和构建,以全量和增量实时流两种方式生产出索引,在线上的服务中生效。 实际业务中,除了搜索业务自己维护的视频MySQL数据库外,还接入了不同形式的数据来源
………………………………