专栏名称: DataFunTalk
专注于大数据、人工智能领域的知识分享平台。
今天看啥  ›  专栏  ›  DataFunTalk

介绍一款刚开源的 Spark 向量化引擎,效果惊艳了!

DataFunTalk  · 公众号  ·  · 2024-09-30 13:00

文章预览

Spark 是当前业界大数据离线计算最主要的系统,向量化是前沿的性能优化技术,快手通过自研的 Blaze 引擎,将向量化技术与 Spark 结合,大规模落地到生产环境,取得了~30% 的线上资源收益。 项目地址:https://github.com/kwai/blaze 据官方介绍,不管在性能方面,还是在资源节省方向,Blaze 都展现出显著的优势。 在 TPC-DS 1TB 的测试中,Blaze 相较于 Spark 3.3 版本减少了 60% 的计算时间、Spark 3.5 版本减少了 40% 的计算时间,并大幅降低了集群资源的消耗;此外,Blaze 在快手内部上线的数仓生产作业也观测到了平均 30% 的算力提升,实现了较大幅度的降本增效。( 引用自 快手自研Spark向量化引擎正式发布,性能提升200% ) DataFun 了解到,目前该项目已经在社区开源,且开源版本全面兼容 Spark 3.0~3.5,用户能够轻松集成 Blaze 至现有 Spark 环境中。 Blaze 实现大幅度优 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览