专栏名称: DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
今天看啥  ›  专栏  ›  DataFunSummit

华为实时入湖 Hudi 应用解决方案

DataFunSummit  · 公众号  ·  · 2024-05-17 18:00
    

文章预览

导读   本文将介绍由基础到进阶的 Hudi 实时入湖解决方案。 主要内容包括: 1.  数据集成整体方案 2.  数据入湖通用方案 3.   数据入湖进阶方案 分享嘉宾| 杨宣 华为 大数据开发工程师 编辑整理|成亮 内容校对|李瑶 出品社区| DataFun 01 数据集成整体方案 1.  整体方案 首先来介绍一下数据集成方案的整体概况。 数据集成大致可分为三种模式: 通过 JDBC 直连,通过 Sqoop,将数据写入 Hive 表。 通过 CDC 工具采集数据库日志,再将其写入专业的 CDC 工具所支持的存储格式中。 通过数据库将数据落到文件或消息队列中,作为数据源,其中文件再通过Sqoop 及 FTP 服务写入 Hive 表; 非标准格式的消息队列通过 Spark/Flink 作业写入 Hive/Hudi 表,标准格式通过专业的 CDC 工具写入 Hudi 表。 入湖模式可以分为实时和批量,实时数据量单表约万级 TPS,秒级的时延 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览