基于改进字典的大数据多维分析加速实践

哔哩哔哩技术 · 公众号 · · 2024-08-23 12:00

文章预览

一、背景 OLAP场景是大数据应用中非常重要的一环，能够快速、灵活地满足业务各种分析需求，提供复杂的分析操作和决策支持。B站主流湖仓使用Iceberg存储，通过建表优化可以实现常规千万级的指标统计秒级查询，这样就能快速搭建可视化报表，但当数据量达到亿级、需要交叉分析维度复杂多表情况下，想要支持秒级就变得困难。因此B站数据分析或者数据开发同学为了能有秒级响应的报表，需要通过ETL grouping sets 提前设计要参与多维分析的维度和指标，然后在ADS层离线计算好对应的数据cube。这有点类似Kylin的预计算模式，区别是查询效率和查询SQL复杂度要更高，毕竟Kylin底层是KV存储并且做了SQL解释器，而原始grouping sets模式得让下游自己选cube切片。比如Push业务DWB表几十亿数据量，想要快速支持十几个维度和十几个指标秒级交叉分析，只能开发提 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

前程无忧51job · 算命先生说患病要多烧香拜佛，女子如何把佛真请到了家里？

3 天前

传媒招聘那些事儿 · 南方周末 · 表达课 | 面试求职时该怎样表达自己的观点？光讲逻辑还不够

4 天前

传媒招聘那些事儿 · 哔哩哔哩：直播公会运营

6 天前

经济观察报 · 三问国央企存量土地资产盘活：盘什么？如何盘？前景何在？

1 月前

汇易咨询 · 政策麦拍卖既是压力亦是支撑，近期国内现货市场窄幅波动

3 周前