大数据技术概述

1. 大数据技术概述#

牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)指出,大数据带来的信息风暴正在改变我们的生活、工作和思维。理解大数据并对这些数据进行有效的处理和分析是企业和政府的机遇,更是一种挑战。数据流的处理必须满足高吞吐和低延迟的特性,Apache Flink(以下简称 Flink)是一种针对数据流的大数据处理框架。开源领域比较知名的大数据处理框架 Apache Hadoop(以下简称 Hadoop)和 Apache Spark(以下简称 Spark),主要专注于批处理。 读完本章之后,读者可以了解以下内容。

  • 大数据的特点、大数据分而治之的处理思想。

  • 批处理和流处理的区别。

  • 流处理的基础概念。

  • 流处理框架的技术更迭和架构演进。

  • Flink 开发的常用编程语言。