文章预览
文 | 作业帮大数据团队(孙建业、常庆琳)
历史背景
作业帮历史数据计算引擎主要依赖 Apache Hive 2.3.7,主要用于数仓建设、即席查询、算法特征分析、实验效果统计等方面。虽然 Hive 在数据管理和计算方面有自己的优势,但随着湖技术、云原生、引擎向量化等技术发展,以及业务对成本敏感程度的变化,Hive 逐渐暴露出一些局限性,主要体现在引擎生态、资源利用效率和系统稳定性方面。 Spark 作为计算引擎基本已经成为行业大数据标配。能力上不仅有 SQL,还有 ML、Steaming、GraphX,以及对各种编程语言的支持。在 Catalyst 优化器、内存计算等资源利用效率方面明显优于 Hive。同时官方支持除 Yarn 部署模式外还支持 K8S,为在离线资源峰谷互补提供支持。Spark 作为事实上的标配,也吸引了很多外围开源项目的深度适配,较 Hive 的简单支持在性能、
………………………………