主要观点总结
美团在Spark向量化计算方面进行了深入研究和实践,采用了Gluten+Velox解决方案,通过优化执行框架、处理稳定性问题、适配ORC格式、优化HDFS客户端等策略,显著提升了计算性能并减少了资源消耗。美团实现了2万多个ETL作业的平均内存资源节省40%+,平均执行时间减少13%,并计划在未来进一步提升向量化计算的覆盖率。
关键观点总结
关键观点1: 向量化计算的优势
向量化计算在不升级硬件的情况下,通过并行处理多个数据项,显著提高了计算效率,并降低了资源消耗。
关键观点2: 美团在Spark向量化计算方面的实践
美团采用了Gluten+Velox解决方案,通过优化执行框架、处理稳定性问题、适配ORC格式、优化HDFS客户端等策略,显著提升了计算性能并减少了资源消耗。
关键观点3: 向量化计算在美团的落地效果
美团已上线2万多个ETL作业,平均内存资源节省40%+,平均执行时间减少13%,证明了向量化计算方案的可行性。
关键观点4: 未来的规划
美团计划在未来进一步提升向量化计算的覆盖率,包括扩大向量化算子和UDF范围,扩大File format支持向量化范围,并持续跟进Gluten/Velox新版本。
文章预览
Apache Spark是一个优秀的计算引擎,广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下,既可获得资源节省,又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎,本文将阐述美团在这一方向的实践和思考。 1 什么是向量化计算 1.1 并行数据处理:SIMD指令 1.2 向量化执行框架:数据局部性与运行时开销 1.3 如何使用向量化计算 2 为什么要做Spark向量化计算 3 Spark向量化计算如何在美团实施落地 3.1 整体建设思路 3.2 Spark+Gluten+Velox计算流程 3.3 阶段划分 4 美团Spark向量化计算遇到的挑战 4.1 稳定性问题 4.2 支持ORC并优化读写性能 4.3 Native HDFS客户端优化 4.4 Shuffle重构 4.5 适配HBO 4.6 一致性问题 5 上线效果 6 未来规划 6.1 Spark向量化之后对开源社区的跟进策略 6.2 提升向量化覆盖率的策略 7 致谢 1 什么是向量化计算 | 1.1
………………………………