文章预览
自"三驾马车"伊始, 大数据处理技术已经发展了二十年。在前十年中, Hive+Spark 这套离线处理技术就已经基本完善; 近十年来, Flink的快速发展又有效地解决了实时处理的问题。然而, 低成本的近实时处理依然面临挑战。近来, 随着业界对近实时处理及流批一体架构的需求愈发强烈, 增量计算开始重新被关注。Flink在1.20中推出了 Materialized Table (MT) 来统一流批两种模式的处理, 配合Paimon已有的Changelog存储能力, 开源低成本增量计算的曙光已至。 本文首先介绍增量计算相关的概念, 随后结合 Flink 和 Paimon 两个引擎通过具体案例来介绍当前开源引擎增量计算的能力。从中我们可以得出当前的增量计算还有哪些不足, 亦可窥视其未来发展方向。 增量计算为何被重视? 增量计算在数据库领域早有研究, 在数据库领域称为Incremental View Maintenance(IVM), 其核心是为了降低
………………………………