专栏名称: ImportNew
伯乐在线旗下账号,专注Java技术分享,包括Java基础技术、进阶技能、架构设计和Java技术领域动态等。
今天看啥  ›  专栏  ›  ImportNew

手把手教你 Spark 性能调优

ImportNew  · 公众号  · Java  · 2017-09-19 20:00
    

文章预览

(点击 上方公众号 ,可快速关注) 来源:xrzs, my.oschina.net/leejun2005/blog/1157245 如有好文章投稿,请点击 → 这里了解详情 0、背景 上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题。 看了下任务的历史运行情况,平均时间 3h 左右,而且极其不稳定,偶尔还会报错:   1、优化思路 任务的运行时间跟什么有关? (1)数据源大小差异 在有限的计算下,job的运行时长和数据量大小正相关,在本例中,数据量大小基本稳定,可以排除是日志量级波动导致的问题: (2)代码本身逻辑缺陷 比如代码里重复创建、初始化变量、环境、RDD资源等,随意持久化数据等,大量使用 shuffle 算子等,比如reduc ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览