今天看啥  ›  专栏  ›  DataFunTalk

腾讯大数据实时湖仓智能优化实践

DataFunTalk  · 公众号  · 互联网短视频 科技自媒体  · 2024-09-09 13:00

主要观点总结

本文分享了腾讯大数据实时湖仓智能优化实践,包括湖仓架构、智能优化服务、场景化能力以及总结和展望。主要围绕智能优化服务展开,详细介绍了Compaction Service、Expiration Service、Cleaning Service、Clustering Service、Index Service和Auto Engine Service等六个部分。

关键观点总结

关键观点1: 腾讯大数据实时湖仓的智能优化实践

本文介绍了腾讯在大数据实时湖仓领域的智能优化实践,包括架构、服务、场景化能力等方面的内容。重点介绍了智能优化服务的六个组成部分,包括数据湖架构的组成及特点,以及各模块的重点工作。

关键观点2: 湖仓架构的组成部分和特点

腾讯大数据的湖仓架构包括数据湖计算、数据湖管理和数据湖存储三个部分。其中,数据湖计算部分以Spark作为ETL Batch任务的主要批处理引擎,Flink作为准实时计算的流处理引擎,StarRocks和Presto作为即席查询的OLAP引擎。数据湖管理层以Iceberg为核心,提供了Auto Optimize Service服务,帮助用户提升查询性能和降低存储成本。

关键观点3: 智能优化服务的详细介绍

智能优化服务主要由六个部分组成,分别是Compaction Service、Expiration Service、Cleaning Service、Clustering Service、Index Service和Auto Engine Service。每个部分都有各自的重点工作和优化手段,例如Compaction Service通过小文件合并优化、增量Rewrite策略等提高数据处理的效率和性能。

关键观点4: 场景化能力的应用

腾讯大数据实时湖仓的场景化能力包括多流拼接、主键表、In Place迁移和AI探索等方面。这些场景化能力根据实际需求进行优化,提高了数据处理的效率和灵活性。

关键观点5: 总结和展望

最后,文章总结了腾讯在大数据实时湖仓智能优化实践方面的成果,并展望了未来的发展方向,包括Auto Optimize Service的冷热分离降本提效、主键表的优化和AI探索等方面的进一步发展和优化。


文章预览

导读   本次分享题目为 腾讯大数据实时湖仓智能优化实践 。 将围绕下面四点展开: 1.  湖仓架构 2.  智能优化服务 3.   场景化能力 4.  总结和展望 分享嘉宾| 陈梁   腾讯 高级工程师 编辑整理| 李笑宇 内容校对|李瑶 出品社区| DataFun 01 湖仓架构 腾讯大数据的湖仓架构如下图所示: 这里分为三个部分,分别是数据湖计算、数据湖管理和数据湖存储。 数据湖计算部分,Spark 作为 ETL Batch 任务的主要批处理引擎,Flink 作为准实时计算的流处理引擎,StarRocks 和 Presto 作为即席查询的 OLAP 引擎。数据湖管理层以 Iceberg 为核心,同时开放了一些简单的 API,支持用户通过 SDK 的方式去调用。在 Iceberg 之上构建了一套 Auto Optimize Service 服务,帮助用户在使用 Iceberg 的过程中实现查询性能的提升和存储成本的降低。数据湖底层存储基于 HDFS 和 COS,COS 是腾讯 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览