今天看啥  ›  专栏  ›  哔哩哔哩技术

B站大数据平台故障自愈实践

哔哩哔哩技术  · 公众号  ·  · 2024-12-10 12:00
    

文章预览

1 背景 上图是B站一站式大数据集群管理BMR的架构图,BMR管理了大数据所有的机器和核心服务,随着B站业务的快速发展,大数据的规模和复杂度也突飞猛进。具体表现如下: 集群规模大: BMR管理的机器数量超过1万台,服务组件超过50个,总存储容量超过1EB,计算资源超过100万核,形成了一个庞大且复杂的集群环境。 服务管理复杂: 在同一台机器上,常常混合部署着多种不同业务的服务,如转码和大数据混部、潮汐混部、以及大数据内部各组件的混合部署等。此外,有些服务之间往往存在相互依赖关系,增加了管理难度。 异构的环境: 集群中的机器型号、操作系统版本、内核版本等方面存在较大差异,形成了高度异构的环境。 面对超大规模的集群、复杂的服务管理和异构环境,尤其是在任务运行时需要跨越多台乃至成百上千台机器的情况下,故 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览