文章预览
概述:腾讯广告业务的特征生产计算每天都会处理万亿级的新增记录和 PB 级的中间数据,并管理数十 PB 规模的历史结果。为了解决海量数据在读写性能(含更新)和存储管理上的痛点,广告特征工程团队和智能湖仓团队在对比业内主流存储组件后,选取 Iceberg 来构建广告特征数据湖。 在社区版 Iceberg 的基础上,拓展共建了多流合并、行列更新兼容的湖内主键,来满足流批一体场景下高吞吐、高频次、低时延的读写更新。通过可伸缩、自适应的分区与合并策略,既解决了开源版本 Iceberg 小文件过多的问题,也通过适配 Spark SPJ(Storage Partitioned Join) 特性来提升数据加载效率。在 Iceberg 元信息模式上,将数据回溯、回滚、归档等通用操作流程化,通过自定义的 Procedure 实现了文件级粒度的元信息查询过滤和变更操作。 业务接入后,离线特征发布至在
………………………………