今天看啥  ›  专栏  ›  InfoQ

资源节省超 50%!作业帮 Spark 全面替换 Hive 的技术实践

InfoQ  · 公众号  · 科技媒体  · 2024-12-23 14:23
    

文章预览

文 | 作业帮大数据团队(孙建业、常庆琳) 历史背景 作业帮历史数据计算引擎主要依赖 Apache Hive 2.3.7,主要用于数仓建设、即席查询、算法特征分析、实验效果统计等方面。虽然 Hive 在数据管理和计算方面有自己的优势,但随着湖技术、云原生、引擎向量化等技术发展,以及业务对成本敏感程度的变化,Hive 逐渐暴露出一些局限性,主要体现在引擎生态、资源利用效率和系统稳定性方面。 Spark 作为计算引擎基本已经成为行业大数据标配。能力上不仅有 SQL,还有 ML、Steaming、GraphX,以及对各种编程语言的支持。在 Catalyst 优化器、内存计算等资源利用效率方面明显优于 Hive。同时官方支持除 Yarn 部署模式外还支持 K8S,为在离线资源峰谷互补提供支持。Spark 作为事实上的标配,也吸引了很多外围开源项目的深度适配,较 Hive 的简单支持在性能、 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览