资源节省超 50%！作业帮 Spark 全面替换 Hive 的技术实践

InfoQ · 公众号 · 科技媒体 · 2024-12-23 14:23

文章预览

文 | 作业帮大数据团队（孙建业、常庆琳）历史背景作业帮历史数据计算引擎主要依赖 Apache Hive 2.3.7，主要用于数仓建设、即席查询、算法特征分析、实验效果统计等方面。虽然 Hive 在数据管理和计算方面有自己的优势，但随着湖技术、云原生、引擎向量化等技术发展，以及业务对成本敏感程度的变化，Hive 逐渐暴露出一些局限性，主要体现在引擎生态、资源利用效率和系统稳定性方面。 Spark 作为计算引擎基本已经成为行业大数据标配。能力上不仅有 SQL，还有 ML、Steaming、GraphX，以及对各种编程语言的支持。在 Catalyst 优化器、内存计算等资源利用效率方面明显优于 Hive。同时官方支持除 Yarn 部署模式外还支持 K8S，为在离线资源峰谷互补提供支持。Spark 作为事实上的标配，也吸引了很多外围开源项目的深度适配，较 Hive 的简单支持在性能、 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【Sensor Tower：#王者荣耀继续稳居全球手游收入榜首#-20241223135000

昨天

新浪科技 · 【#专家称取消公摊的时机马上就到了#】#专家称取消公摊买房的疙瘩-20241223113000

昨天

36氪 · 一知智能陈哲乾：大模型驱动，营销3.0时代AI是主角｜36氪专访

3 天前

新浪科技 · 【#特斯拉高管称电动车无惧寒冷地区#：“依然可以完全替代燃油车”-20241219211000

5 天前

新浪科技 · 【#房车旅行成为老年旅游市场新宠#】#今年银发族房车人群同比增长-20241219215000

5 天前

中国电力企业联合会 · 中电联发布 | 中国沿海电煤采购价格指数（CECI沿海指数）第301期

6 月前

电脑报 · 舍不得卸载的神仙软件，好用

5 月前

小北带你飞 · 不管你做什么项目，想要做大，想要提高效率，都离不开这一步搭建SO-20241212144007

1 周前