今天看啥  ›  专栏  ›  无人之路

【数据工程】解密Sparkle:Uber如何统一规范其模块化ETL工作流

无人之路  · 公众号  ·  · 2024-11-05 18:02
    

文章预览

题记 上一篇文章 【AI机会】从招聘数据看生成式AI机会:数据分析具有爆发潜力 提到:数据处理比较个性化,不容易提供通用的解决方案。不过在数据在数据处理软件工程化方面,业界一直在探索实践,比如DBT。 今天要和大家分享Uber在这方面的工作:Sparkle框架。作为一个长期关注数据工程领域发展的一线工程师,我认为这是一个非常值得研究的技术创新。让我们一起来看看这个框架是如何改变大规模数据处理的。 https://www.uber.com/en-HK/blog/sparkle-modular-etl/?uclick_id=4b4d9356-ab7a-4c18-bd9e-84e864280a65 Uber的数据处理现状 首先,让我们了解一下Uber的数据处理规模。说实话,这个规模真的很惊人: 数据量级达到了EB级(1EB = 1024PB) 超过20,000个关键数据管道 3,000多名工程师在维护这些管道 整个数据技术栈包含了几乎所有主流大数据工具 他们的数据技术栈是这样 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览