专栏名称: 哔哩哔哩技术
提供B站相关技术的介绍和讲解
今天看啥  ›  专栏  ›  哔哩哔哩技术

Apache Gravitino 在B站的最佳实践

哔哩哔哩技术  · 公众号  ·  · 2024-12-17 12:00
    

文章预览

导读 在传统的大数据元数据管理系统中,以 HiveMetaStore 为核心的架构存在诸多问题和挑战。随着数据湖大规模应用、AI 数据大量增长、数据安全与数据治理被更加被重视,我们难以基于原有的架构或组件实现一套统一的元数据管理系统,进而解决数据孤岛、统一权限,多维度数据治理等问题。因此,在 B 站 我们引入了 Gravitino,本次分享将介绍 Gravitino 在 b 站的最佳实践。其中包括了统一了多种数据源的元数据视图,统一跨数据源任务的 schema 信息,并且基于其中的 Fileset 概念对非结构化数据进行管理与数据治理,取得了可观的收益。 今天的介绍将围绕下面四点展开: 元数据管理痛点剖析 Apache Gravitino 背景概览 Apache Gravitino 生产实践 Apache Gravitino 规划展望 01  元数据管理痛点剖析 上图是我们在引入 Gravitino 之前的数据系统架构图。我们的元数据 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览