专栏名称: 迪答数据
大数据(flink,kafka,spark,hadoop),程序语言(java,scala,Python),用户画像,数据分析,资源分享......这里有技术,但不只技术;点点滴滴,些许用处,滴滴答答,终能穿石。
今天看啥  ›  专栏  ›  迪答数据

Apache Spark在小米的生产实践

迪答数据  · 公众号  ·  · 2024-06-30 18:01

文章预览

导读   Apache Spark 是被广泛使用的大数据离线计算引擎。小米基于Spark3.1 建设了新一代一站式数据开发平台的批处理能力,新平台在作业迁移、性能优化、稳定性优化中都遇到了一些问题。本文将分享其中的典型问题以及小米 Spark 团队的解决方案。 本次分享围绕以下五点展开: 1.  Multiple Catalog 落地与应用 2.  Hive SQL 迁移 Spark SQL 3.   离线场景下 Spark 的稳定性与性能优化 4.  未来规划 5.  问答环节 01 Multiple Catalog  落地与应用 首先介绍一下 Multiple Catalog 的相关背景。 1.  相关背景 2021 年之前,在小米集团存在多个数据开发平台。当时这些平台只支持处理Hive 数据源。其他数据源,如:MySQL、Kudu 等,需要注册为 Hive 外表,作为 Hive 表才能使用。当时的数据管理比较分散,数据引擎也比较落后。 为此,小米计算团队开始着手打造新一代的数据工场,作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览