Table API & SQL

8. Table API & SQL#

在之前的章节中，我们已经系统介绍了如何使用 Flink 的 DataStream API 在时间维度上进行有状态的计算。为了方便开发和迭代，Flink 在 DataStream/DataSet API 之上提供了一个更高层的关系型数据库式的 API——Table API & SQL。Table API & SQL 有以下特点：

结合了流处理和批处理两种场景，提供统一的对外接口。
Table API & SQL 均以关系型数据库中的表为基础模型，Table API 和 SQL 两者结合非常紧密。
Table API & SQL 与其他平台使用习惯相似，例如 Hive SQL、Spark DataFrame & SQL、Python pandas 等，数据科学家可以快速从其他平台迁移到 Flink 平台上。
比起 DataStream/DataSet API，Table API & SQL 的开发成本较低，可以广泛应用在数据探索、业务报表、商业智能等各类场景，适合企业大规模推广。
很多用户对 Flink DataStream/DataSet API 的熟悉程度并不高，反而 Table API & SQL 在效率方面有很大优势：用户可以更关注业务逻辑，执行优化可以交由 Flink 来做。

基于 Table API & SQL 的诸多优点，Flink 社区非常重视对这方面的投入，无论是已经完成的版本还是中长期的规划中，Flink 社区都将 Table API & SQL 作为重要的发展方向。尤其是在在阿里巴巴在 Flink 社区投入更多的资源之后，阿里巴巴内部版本 Blink 和开源社区版本 Flink 正在快速融合，一些 Blink 中关于 Table API & SQL 的功能已经提交到开源社区版本中，Table API & SQL 处于快速迭代开发状态中。从另一方面来讲，Table API & SQL 的一些功能也在逐渐完善，一些接口也会发生变化。

由于批处理上的关系型查询已经比较成熟，相关书籍和材料已经比较丰富，因此这里不再花费精力详细介绍，本书主要围绕流处理场景来介绍 Table API & SQL。具体而言，我们将先概括性地介绍 Table API & SQL 的骨架程序和使用方法；接着重点介绍流处理下特有的概念：动态表和持续查询、时间和窗口、Join；然后介绍一些 Flink SQL 使用过程所涉及的一些重要知识点；最后介绍如何使用系统函数和用户自定义函数。