专栏名称: StarRocks
StarRocks 是 Linux 基金会旗下的开源项目,专注于打造世界顶级的分析型数据库,以帮助企业建立“极速统一”的湖仓新范式。目前, StarRocks 已成功帮助全球数百家大型企业构建新一代数据分析能力。
今天看啥  ›  专栏  ›  StarRocks

Paimon x StarRocks 在同程旅行的湖仓构建方案

StarRocks  · 公众号  ·  · 2024-12-02 20:12
    

文章预览

作者: 欧阳佳,同程旅行大数据开发工程师 小编导读: 本文将结合同程旅行的实际案例,介绍如何通过 Paimon 实现湖仓一体化管理,并借助 StarRocks 提升查询性能。同时,我们还将分享存算分离的实践经验,以及未来在这两大技术上的探索方向。 使用 Paimon 构建湖仓一体 1 同程旅行数仓建设历程 早期,同程旅行的数仓体系基于 Hive 来实现离线数据分析,在满足用户实时需求方面存在不足。为了解决这一问题,我们引入了 Apache Kudu 组件,将 ODS 层的数据同时写入 Hive 和 Kudu。由于 Kudu 不支持流式读取,我们通过 Spark 读取Kudu进行下游处理,以 10 分钟或 1 小时为周期调度任务,将处理后的数据写回 Kudu 表。 然而,这种架构存在显著的问题: 数据被有两份,分别存储在 Hive 和 Kudu 中,无法共享; Spark 调度周期较长,无法满足实时性需求; Kudu 基于 SSD ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览