Apache Flink Table Store——流批一体存储

Flink Table Store 面向更新场景的 OLAP 应用。作为流批统一存储，在 Flink 中为流式处理和批处理构建动态表，支持实时流式更新/删除变更日志摄取、实时流消费和高性能数据查询。当大量更新数据（如 MySQL 的 binlog 日志）写入 Flink Table Store 后，Flink Table Store 后台会根据主键来合并数据，默认保留最新变更后的数据。
Flink Table Store 目前仍处于 beta 状态，正在快速发展，不建议直接在生产环境中使用。

出现背景

在过去的几年里，得益于众多的贡献者和用户，Apache Flink 已经成为最好的分布式计算引擎之一，尤其是在大规模有状态流处理方面。然而，当试图深入了解实时数据时，仍然面临着一些挑战。在这些挑战中，一个突出的问题是缺乏满足所有计算模式的存储。

到目前为止，为了不同目的部署几个存储系统来使用 Flink 是很常见的。一个典型的部署是用于流处理的消息队列、用于批处理和即席查询的可扫描文件系统/对象存储、以及用于查找的 K-V 存储。但这种架构由于复杂性和异构性，在数据质量和系统维护方面都提出了挑战。正成为影响 Apache Flink 流批统一端到端用户体验的一大问题。

而 Flink Table Store 的目标就是解决上述问题，将 Flink 的能力从计算扩展到存储领域，以便为用户提供更好的端到端体验。

核心能力

Flink Table Store 旨在提供统一的存储抽象，让用户不必自己构建混合存储。具体来说，Flink Table Store 提供以下核心能力：

支持大型数据集的存储，并允许在批处理和流模式下进行读/写；
支持毫秒级延迟的流式查询；
支持秒级延迟 Batch/OLAP 查询；
默认情况下，流消费支持增量快照。所以用户不需要自己解决组合不同存储带来的问题。

主要特点

作为一种新型的可更新数据湖，Flink Table Store 具有以下特点：

大吞吐量数据摄取，同时提供良好的查询性能。
具有主键过滤器的高性能查询，最快 100 毫秒。
Lake Storage 上提供流式读取，Lake Storage 也可以与 Kafka 集成，提供秒级流式读取。

演进过程

在早先发布的 0.1.0 预览版，用户可以使用 Flink 将数据写入到 Flink Table Store 中，既可以通过流式传输从数据库中捕获的更新日志，也可以通过从数据仓库等其他存储中批量加载数据。

用户可以使用 Flink 以不同的方式查询 Flink Table Store，包括流式查询和 Batch/OLAP 查询。还值得注意的是，用户也可以使用其他引擎（例如 Apache Hive）从 Flink Table Store 中查询。

在底层，Flink Table Store 使用混合存储架构，使用 Lake Store 存储历史数据，使用 Queue 系统（目前支持 Apache Kafka 集成）存储增量数据。它为混合流式读取提供增量快照。

Flink Table Store 的 Lake Store 将数据作为列文件存储在文件系统/对象存储上，并使用 LSM 结构来支持大量的数据更新和高性能查询。

Flink Table Store 架构图

目前，Flink Table Store 发布了 0.2.0 版本。该版本主要包含以下四个值得关注的新特性：

引入自己的目录（Catalog），并支持自动同步到 Hive Metastore；
增加对 Flink 1.14 的支持，并支持多个计算引擎（Spark、Hive、Trino）的读取操作；
支持 append-only 表特性；
支持可调整存储桶数量。

在即将发布的 0.3.0 版本中，可以期待（至少）以下功能：

支持流式变更日志并发写入，Compaction 隔离；
Aggregation Table，用于构建物化视图；
为部分更新/聚合表生成变更日志；
Full Schema Evolution 支持删除列和重命名列；
查找支持 Flink 维度连接。

内容来源

https://flink.apache.org/news/2022/08/29/release-table-store-0.2.0.html
https://flink.apache.org/news/2022/05/11/release-table-store-0.1.0.html

（END）