主要观点总结
本文介绍了字节跳动为解决多机房大数据作业运行问题而研发的多机房计算、存储、网络一体化资源管理系统ResLake。该系统通过全局视角优化计算、存储和网络的资源排布,旨在降低作业完成时间、均衡不同机房之间的资源负载、减少跨机房流量和降低存储成本。文章详细阐述了ResLake的系统设计、架构设计、系统输入与输出、调度模型、系统实现和效果验证等方面。
关键观点总结
关键观点1: ResLake系统的主要目标
通过设计多机房统一资源管理系统,减少作业完成时间,实现不同机房之间的资源均衡。
关键观点2: ResLake系统的架构
具备计算、存储和网络的全局视角,能够全局优化资源的最优排布问题。
关键观点3: ResLake系统的实现方式
控制层与底层计算、存储和网络层协调,通过在线和离线机制确保各种机制的有效性。
关键观点4: ResLake系统的效果验证
自部署以来,大数据作业平均作业完成时间明显降低、资源均衡性得到显著提升,跨机房流量和存储成本大幅下降。
关键观点5: 作者信息
张鑫春,字节跳动基础架构工程师,曾就职阿里、百度,目前在字节跳动专职于大数据资源管理系统研发工作。
文章预览
引言 在字节跳动,每天有数百万的大数据作业在其全球的数十个数据中心运行。由于作业计算和存储资源的不匹配,存在将跨机房带宽用尽的风险,这会影响其他业务的运作,还会造成不同机房的资源负载不均衡。而且跨机房带宽存在成本高、延迟高、稳定性差等问题,会大幅增加作业的运行时长。为兼顾作业完成时间(Job Completion Time, JCT),并均衡不同机房之间资源的负载,字节跳动基础架构计算团队、存储团队、应用研究中心,和系统部网络团队协作,共同研发了 多机房计算、存储、网络一体化资源管理系统 ResLake 。ResLake 具备资源的全局视角,通过作业调度、数据调度、网络管控等手段,能够显著优化计算和存储的布局,有效降低业务运营成本。ResLake 上线后, 作业平均 JCT(最小化用户作业完成时间) 时间降低了 20%,机房间资源利
………………………………