阿里云大数据AI平台依托阿里领先的云基础设施、大数据和AI工程能力、场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的大数据和AI能力体系。帮助提升AI应用开发效率,促进AI在产业中规模化落地,激发业务价值。
今天看啥  ›  专栏  ›  阿里云大数据AI平台

流存储Fluss:迈向湖流一体架构

阿里云大数据AI平台  · 公众号  ·  · 2025-01-14 08:00
    

文章预览

摘要: 本文整理自阿里云高级开发工程师,Flink Committer 罗宇侠老师在 Flink Forward Asia 2024上海站分论坛流批一体(二)中的分享,内容主要分为以下四个部分: 一、湖流割裂的现状和挑战 二、Fluss 湖流一体架构 三、湖流一体架构的收益 四、未来规划 01 湖流割裂的现状和挑战 从 Lambda 架构到数据湖统一存储架构 在大数据处理领域,Lambda 架构是使用非常广泛的一种架构。Lambda 架构将数据处理分成单独的两条链路,一条是离线计算链路,通常由 Hive 作为离线计算链路的存储,另外一条是实时链路,通常由流存储,如 Kafka 作为实时链路的存储。 随着技术的演进, Apache Paimon,Apache Iceberg ,Apache Hudi 等湖存储在支持大数据量的批式计算的基础上,还可以提供分钟级别的数据新鲜度,Lambda 架构中的两套不同的存储逐渐被统一的数据湖存储替代了。数据湖 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览