主要观点总结
本文介绍了快手基于Apache Doris升级为湖仓一体分析平台的经历。通过引入Apache Doris,解决了原有架构中存在的问题,如数据冗余存储、资源占用、治理复杂和查询性能瓶颈等。文章详细描述了快手在升级过程中使用的技术选型、缓存服务、自动物化系统、湖仓数据查询优化等方面的实践经验。
关键观点总结
关键观点1: 技术升级背景
快手原有架构面临数据存储冗余、资源占用高、治理复杂和查询性能瓶颈等问题,需要升级技术架构。
关键观点2: 技术选型与解决方案
快手选择引入Apache Doris,通过替换ClickHouse,实现湖仓一体分析平台。利用Doris的高性能计算引擎和物化视图能力,解决原有问题。
关键观点3: 缓存服务与优化
快手结合Doris系统架构和特性,对元数据缓存和数据缓存进行了适配和优化。通过Meta Server服务实现查询引擎、元数据服务和数据缓存服务的三方联动。
关键观点4: 自动物化系统
快手结合Doris的物化视图透明改写能力和自研的物化服务,实现了KwaiMTMV自动物化系统。通过物化发现、物化生产和物化消费三个步骤,提高了数据模型的交付速度和查询效率。
关键观点5: 湖仓数据查询优化
除了缓存服务和物化视图服务,快手还总结了一些湖仓查询的优化经验,如收集外表统计信息、有序文件和合适的RowGroup大小、使用Bucket表等。
文章预览
作者|快手大数据架构师 李振炜、曾斯维、周思闽
本文导读 快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。 在当今这个数据洪流的信息时代下,数据已跃升为企业不可或缺的核心资产。深度挖掘并提炼数据内在价值,成为支撑企业战略决策的重要依据。在此背景下,快手建立了 OLAP 系统,该系统在快手应用极为广泛,每天承载近 10 亿的查询请求,为内外多个业务场景提供数据服务。具体场景包括: ToB 系统:商业化报表引擎、商业化 DM
………………………………