专栏名称: 腾讯大数据
腾讯大数据团队官方公众号,关注大数据平台构建、数据挖掘、数据应用等。信息共享,促进行业交流。
目录
相关文章推荐
今天看啥  ›  专栏  ›  腾讯大数据

基于 Iceberg 打造高效、统一的腾讯广告特征数据湖

腾讯大数据  · 公众号  ·  · 2024-12-05 18:00
    

文章预览

概述:腾讯广告业务的特征生产计算每天都会处理万亿级的新增记录和 PB 级的中间数据,并管理数十 PB 规模的历史结果。为了解决海量数据在读写性能(含更新)和存储管理上的痛点,广告特征工程团队和智能湖仓团队在对比业内主流存储组件后,选取 Iceberg 来构建广告特征数据湖。 在社区版 Iceberg 的基础上,拓展共建了多流合并、行列更新兼容的湖内主键,来满足流批一体场景下高吞吐、高频次、低时延的读写更新。通过可伸缩、自适应的分区与合并策略,既解决了开源版本 Iceberg 小文件过多的问题,也通过适配 Spark SPJ(Storage Partitioned Join) 特性来提升数据加载效率。在 Iceberg 元信息模式上,将数据回溯、回滚、归档等通用操作流程化,通过自定义的 Procedure 实现了文件级粒度的元信息查询过滤和变更操作。 业务接入后,离线特征发布至在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览