百年叔叔

flink

Apache Flink 简介

Apache Flink 概述

Apache Flink 是由 Apache 软件基金会开发的开源、统一的流处理和批处理框架。 Apache Flink 的核心是其分布式流数据流引擎，能够以高吞吐量和低延迟处理数据。 Flink 设计为在所有常见的集群环境中运行，以内存中的速度执行任何规模的计算。

使 Apache Flink 在大数据处理框架中脱颖而出的关键特性之一是它能够提供真正的实时流处理。与其他将流处理作为一系列微批次进行处理的系统不同，Flink 能够连续、真实地实时处理数据。此功能对于需要立即响应的应用程序至关重要，例如金融交易中的欺诈检测和关键系统中的实时异常检测。

Flink 的架构不仅可以处理流数据，还可以通过将批数据视为有限数据流来处理批数据。这种双重能力有利于实时数据处理和历史数据分析之间更加无缝的集成，使 Flink 成为混合数据处理场景的绝佳选择。

可扩展性和性能

Apache Flink 旨在横向扩展以处理分布在数千个节点上的大量数据。该框架使用强大的物理执行计划，包括任务并行化、流水线和内存处理来优化执行速度。 Flink 的检查点机制在保持高性能的同时提供容错能力，确保在发生故障时可以恢复状态计算。

该框架的性能优势通过其内存管理系统得到进一步增强，该系统显式控制内存分配，以防止垃圾收集暂停影响处理延迟的常见问题。

与其他大数据处理框架的区别

虽然有许多可用的大数据处理框架，包括 Apache Hadoop 和 Apache Spark，但 Flink 以其简化的流处理方法而脱颖而出。与主要专注于批处理的 Hadoop 和扩展其批处理模型以处理流数据的 Spark 不同，Flink 是从头开始构建的，用于处理无限的数据流。

这种根本性的差异使 Flink 能够在不同的负载和数据速度下保持一致的性能，使其更适合需要实时处理性能和结果的应用程序。此外，Flink 提供了灵活的窗口机制和事件时间处理能力，比传统的处理模型更有效地处理乱序和迟到数据。

基本术语和组件

DataStream API：DataStream API 提供了用于编写流处理应用程序的构建块。它提供了用于转换数据流的运算符，例如映射、减少和连接。
DataSet API：主要用于批量数据处理，DataSet API 提供与 DataStream API 中类似的各种运算符，但针对静态数据进行了优化。
事件时间处理：Flink 能够根据事件实际发生的时间而不是处理事件的时间来处理事件。
Stateful Operators：这些允许 Flink 维护不同事件之间的状态信息。这对于复杂事件处理至关重要，因为复杂事件处理的结果取决于先前事件的顺序和组合。
Windows：Windows 根据时间或其他标准将流分割为有限的事件集，允许 Flink 管理如何在有界流上执行操作。
检查点和保存点：Flink 的容错机制是围绕一致的检查点构建的，它定期捕获拓扑中所有操作的状态，并确保在发生故障时可以恢复状态。

了解这些组件和术语对于有效导航和利用 Flink 生态系统至关重要。随着我们在后续章节中更深入地研究 Flink 的开发和操作方面，这些元素将构成更高级概念和功能的核心。

设置开发环境

先决条件

在安装 Apache Flink 之前，必须确保您的系统满足必要的先决条件。主要要求是 Java，因为 Flink 运行在 Java 虚拟机 (JVM) 之上。 Apache Flink 目前需要 Java 8、11 或 17。建议使用 Java 11，以获得稳定性和功能之间的最佳平衡。此外，对于源代码操作和项目生命周期的有效管理，建议使用 Maven，对于较大的项目，通过 Gradle 管理依赖项和自定义构建也很有好处。

安装Java

下载并安装 Java：
- 对于 Windows 和 macOS：
  - 访问 Oracle 网站下载适合您的特定操作系统的 Java JDK。
  - 运行下载的安装程序，按照屏幕上的说明完成安装。
- 对于Linux：
  - 您可以从包管理器安装 Java。例如，在 Ubuntu 上，您可以运行：
    sudo apt update sudo apt install openjdk-11-jdk
设置Java环境变量：
- 对于 Windows：
  - 在系统设置中搜索环境变量，然后单击“编辑系统环境变量”。
  - 在“系统属性”窗口中，单击“环境变量”。
  - 添加指向 Java 安装目录的新系统变量 JAVA_HOME。
  - 编辑 Path 变量并添加%JAVA_HOME%\bin;以包含 Java 的 bin 目录。
- 对于 macOS 和 Linux：
  - 在文本编辑器中打开 shell 配置文件（例如，.bashrc、）。.zshrc
  - 添加以下行来设置 JAVA_HOME 并更新路径：
    export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export PATH=$JAVA_HOME/bin:$PATH
  - 保存文件并获取它以应用更改：
    source ~/.bashrc # Or appropriate profile file

安装 Apache Flink

下载弗林克：
- 前往Apache Flink 官方下载页面并选择您要安装的 Flink 版本。建议下载与您的 Java 版本兼容的二进制包。
解压 Flink 包：
- 将下载的 tar.gz 文件解压缩到您选择的目录。例如，在 Linux 或 macOS 上，您可以使用：
  tar -xzf flink-*.tar.gz -C /path/to/install-directory/
- 这将创建一个包含所有 Flink 二进制文件和脚本的新目录。

设置集成开发环境 (IDE)

对于开发 Flink 应用程序，使用 IntelliJ IDEA 或 Eclipse 等集成开发环境 (IDE) 具有显着的优势，包括代码补全、语法突出显示以及与 Maven 和 Gradle 等构建工具的直接集成。

安装IDE：
- 下载并安装IntelliJ IDEA或Eclipse。
配置IDE：
- 打开 IDE 并通过在项目结构或首选项设置中设置 JDK 路径来将其配置为识别您安装的 JDK。
- 如果您使用 Maven 或 Gradle，请确保您的 IDE 配置为识别这些工具。这通常涉及在 IDE 设置中设置 Maven 或 Gradle 安装的路径。

验证安装

为了验证 Flink 是否正确安装并正常运行，您可以启动本地 Flink 集群：

启动本地Flink集群：
- 导航到 Flink 安装目录中的 bin 目录。
- 通过运行以下命令启动本地集群：
  ./start-cluster.sh # On Linux or macOS start-cluster.bat # On Windows
检查 Flink Web 界面：
- 打开 Web 浏览器并转到http://localhost:8081/。这将打开 Flink Web 仪表板，其中应显示正在运行的 Flink 集群的状态。

通过以下步骤，您将设置 Apache Flink 的开发环境，包括 Java 安装、Flink 设置、IDE 配置以及通过启动本地 Flink 集群进行验证。环境设置完毕后，您现在就可以继续创建和运行 Flink 应用程序了，如后续部分所述。

创建并运行简单的 Flink 应用程序

正确配置 Apache Flink 开发环境后，下一步就是创建并运行一个简单的 Flink 应用程序。本节提供了有关开发执行简单数据处理任务的基本 Flink 应用程序的分步指南。该示例将演示从源读取、应用转换以及写入输出。

第1步：创建Maven项目

Apache Flink 应用程序通常使用 Maven 构建来管理依赖项。以下是创建新 Maven 项目的方法：

为您的项目创建一个新目录并导航到其中：
mkdir flink-basic-app cd flink-basic-app
使用以下命令生成 Maven 项目mvn：
mvn archetype:generate -DgroupId=com.example -DartifactId=flink-basic-app -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false
导航到项目目录：
cd flink-basic-app
将 Flink 依赖项添加到您的pom.xml文件中：
<dependencies> <dependency> <groupId>org.apache.flinkgroupId> <artifactId>flink-javaartifactId> <version>1.15.0version> dependency> <dependency> <groupId>org.apache.flinkgroupId> <artifactId>flink-streaming-java_2.12artifactId> <version>1.15.0version> <scope>providedscope> dependency> dependencies>

第二步：编写Flink程序

Flink 程序由三个主要组件组成：源、转换和接收器。

BasicFlinkApp.java在目录中创建一个名为的Java 类src/main/java/com/example。
定义设置环境的main方法：
package com.example; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class BasicFlinkApp { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<String> text = env.fromElements("Hello", "Flink", "World"); DataStream<String> processed = text.map(String::toUpperCase); processed.print(); env.execute("Flink Basic App"); } }

此处，fromElements根据提供的字符串创建数据流。该map转换将每个字符串转换为大写，并将print结果打印到标准输出。

第三步：编译并打包应用程序

使用 Maven 编译并打包您的应用程序：

编译项目：
mvn clean compile
打包应用程序：
mvn clean package
验证目录中是否已创建 JAR 文件target。

第 4 步：运行 Flink 应用程序

现在，您已准备好在本地集群上运行 Flink 应用程序：

按照环境设置说明中的说明启动本地 Flink 集群。
使用 Flink CLI运行应用程序：
./bin/flink run -c com.example.BasicFlinkApp /path/to/your/flink-basic-app/target/flink-basic-app-1.0-SNAPSHOT.jar
通过命令行或通过位于的 Flink 仪表板监视输出http://localhost:8081/。

通过遵循这些步骤，您将成功创建并执行一个处理数据流的基本 Flink 应用程序。这种实践经验为您可能探索的更复杂的 Flink 应用程序和用例奠定了基础。

了解 Flink 中的数据源

数据源在任何数据处理框架中都至关重要。本节将探讨 Flink 支持的不同数据源，例如集合、文件和 Kafka，以及如何将它们集成到 Flink 应用程序中。

了解 Flink 中的数据源

数据源在任何数据处理框架中都至关重要。本节将探讨 Flink 支持的不同数据源，例如集合、文件和 Kafka，以及如何将它们集成到 Flink 应用程序中。

集成静态集合作为数据源

静态集合（例如数组或列表）是最简单的数据源形式之一，可在 Flink 应用程序中用于测试和开发目的。 Flink 可以将这些静态集合作为有界数据流进行处理。

示例：以下是如何List在 Flink 应用程序中使用 Java 作为数据源：

import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.operators.DataSource; import java.util.Arrays; public class CollectionSourceExample { public static void main(String[] args) throws Exception { final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); DataSource<Integer> data = env.fromCollection(Arrays.asList(1, 2, 3, 4, 5)); data.print(); } }

在此示例中，ExecutionEnvironment用于设置批处理作业的执行环境，并fromCollection从 Java List.此设置适用于预定义整个数据集的批处理作业。

从文件中读取

Flink 支持从文件中读取数据，这对于批处理和流处理至关重要。文件可以采用各种格式，例如纯文本、CSV 或二进制，并且可以位于本地文件系统或 HDFS 等分布式文件系统上。

示例：以下是如何在 Flink 批处理应用程序中读取文本文件：

import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.DataSet; public class FileSourceExample { public static void main(String[] args) throws Exception { final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); DataSet<String> text = env.readTextFile("path/to/your/textfile.txt"); text.print(); } }

对于流应用程序，该过程略有不同。 Flink 允许StreamExecutionEnvironment以流方式读取文件。

示例：持续监视目录中的新文件并在它们到达时对其进行处理：

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.api.datastream.DataStreamSource; public class StreamingFileSourceExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStreamSource<String> stream = env.readFileStream("path/to/directory"); stream.print(); } }

集成 Kafka 作为流数据源

Apache Kafka 是用于构建实时流数据管道的流行平台。 Flink 提供与 Kafka 的无缝集成来消费和生产数据流。

示例：使用来自 Kafka 主题的数据：

import org.apache.flink.api.common.serialization.SimpleStringSchema; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer; import java.util.Properties; public class KafkaSourceExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); Properties properties = new Properties(); properties.setProperty("bootstrap.servers", "localhost:9092"); properties.setProperty("group.id", "test"); FlinkKafkaConsumer<String> myConsumer = new FlinkKafkaConsumer<>( "kafka-topic-name", new SimpleStringSchema(), properties); env.addSource(myConsumer).print(); env.execute("Flink Kafka Integration Example"); } }

在此示例中，FlinkKafkaConsumer用于创建连接到 Kafka 主题的源。该properties对象保存 Kafka 的配置设置，例如代理地址和消费者组 ID。此设置使 Flink 应用程序能够连续消费来自指定 Kafka 主题的消息。

通过集成这些不同的数据源（集合、文件和 Kafka），Apache Flink 可以实现灵活且可扩展的数据处理场景，适应批处理和实时处理应用程序的需求。通过这些示例，开发人员可以利用 Flink 强大的 API 和可扩展性，在 Apache Flink 中高效地实现和自定义数据处理作业。

Flink 中的数据转换

数据转换操作构成了 Apache Flink 中任何数据处理工作流程的支柱。这些操作使您能够操纵、细化数据流并将其转换为有价值的见解。我们将深入研究 Flink 中的三个基本数据转换操作：map、filter和keyBy。这些转换中的每一个都在数据处理中发挥着至关重要的作用，并且可以组合起来构建复杂的数据处理管道。

功能`map`

Flink 中的函数map是一种无状态转换，它将一对一映射应用于输入 DataStream 或 DataSet 的每个元素。它从输入数据中获取一个元素，执行一些操作，并生成一个元素作为输出。当您需要转换数据元素（例如转换数据类型、解析字段或应用数学函数）时，此函数特别有用。

示例：以下是如何在 Flink 应用程序中使用该map函数将温度从摄氏度转换为华氏度：

import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class MapFunctionExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<Integer> celsiusTemperatures = env.fromElements(0, 10, 20, 30, 40); DataStream<Double> fahrenheitTemperatures = celsiusTemperatures.map(new MapFunction<Integer, Double>() { @Override public Double map(Integer celsius) throws Exception { return (celsius * 9 / 5.0) + 32; } }); fahrenheitTemperatures.print(); env.execute("Celsius to Fahrenheit Conversion"); } }

功能`filter`

该filter函数用于根据谓词从数据流中删除元素。此函数评估每个元素的布尔条件，并仅保留条件成立的那些元素。当您需要丢弃不相关或不必要的数据或关注满足特定条件的数据子集时，过滤至关重要。

示例：使用该filter函数过滤掉低于特定阈值的温度：

import org.apache.flink.api.common.functions.FilterFunction; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class FilterFunctionExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<Integer> temperatures = env.fromElements(-10, 0, 10, 20, 30, 40); DataStream<Integer> validTemperatures = temperatures.filter(new FilterFunction<Integer>() { @Override public boolean filter(Integer value) throws Exception { return value > 0; // Filter out temperatures below 1 degree Celsius } }); validTemperatures.print(); env.execute("Filter Negative Temperatures"); } }

功能`keyBy`

该keyBy函数用于围绕指定键对流进行分区，这对于分组和聚合数据非常有用。该函数根据键相等性将传入的数据划分为逻辑分区，并且每个分区都是并行处理的。这与GROUP BY批处理中的操作类似，但专为流数据而设计。

示例：按城市对温度读数进行分组：

import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.datastream.KeyedStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class KeyByExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<Tuple2<String, Integer>> cityTemperatures = env.fromElements( Tuple2.of("New York", 3), Tuple2.of("Los Angeles", 15), Tuple2.of("New York", 5), Tuple2.of("Los Angeles", 20) ); KeyedStream<Tuple2<String, Integer>, String> keyed = cityTemperatures.keyBy(value -> value.f0); // Example usage: you can apply transformations like aggregating average temperatures per city using the keyed stream keyed.print(); env.execute("Group By City Example"); } }

这些基本转换是许多复杂 Flink 应用程序的构建块。通过理解和利用map、filter、和keyBy，开发人员可以根据其特定的应用需求有效地操作和处理流数据。有了这些知识，我们就可以探索更复杂的事件处理场景，正如我们将在接下来的使用 Flink 进行复杂事件处理的部分中看到的那样。

使用 Flink 处理复杂事件

复杂事件处理 (CEP) 是 Apache Flink 的一个重要功能，它允许对事件流进行分析和模式检测。在本节中，我们将探讨窗口、事件时间和水印等高级概念，这些概念对于现实场景中的有效流处理至关重要。

窗口化

窗口化是 Flink 中的一种机制，它根据时间或其他属性对事件进行分组，以对有限的数据子集执行计算。 Windows 在流应用程序中至关重要，您需要在有界上下文上聚合或执行计算。 Flink 支持多种类型的窗口，包括 Tumbling、Sliding、Session 和 Global 窗口。

翻滚窗口将数据流划分为不重叠的连续时间块。例如，如果您将滚动窗口设置为 5 分钟，则每个窗口恰好覆盖 5 分钟的传入数据。
滑动窗口与翻滚窗口类似，但允许窗口重叠。例如，您的窗口大小可能为 5 分钟，每 1 分钟滑动一次，从而导致窗口重叠。
会话窗口将元素分组为会话，这些会话表示由指定的不活动间隔分隔的活动周期。

实际示例：以下是如何使用滚动窗口每分钟聚合传感器数据（例如，物联网设备的温度读数）的示例：

import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.windowing.time.Time; import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class TumblingWindowExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<SensorData> sensorData = env.addSource(new SensorSource()); sensorData .keyBy(SensorData::getId) .window(TumblingEventTimeWindows.of(Time.minutes(1))) .reduce((a, b) -> new SensorData(a.id, a.temperature + b.temperature)) .print(); env.execute("Tumbling Window Example"); } }

在此代码片段中，每分钟都会聚合传感器数据，汇总每个传感器的温度读数。

活动时间和水印

事件时间是事件实际发生的时间，而不是 Flink 应用程序处理事件的时间。使用事件时间可以在分布式和异步环境中获得更加一致和准确的结果。

水印是与事件时间相关的概念。水印是数据流中的一个标记，表示所有处理时间戳早于水印的事件的窗口都可以关闭。因此，水印允许 Flink 处理乱序事件和事件流中的延迟。

实际示例：让我们在前面的示例中添加水印来处理可能延迟到达的事件：

import org.apache.flink.api.common.eventtime.WatermarkStrategy; import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner; import org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExtractor; public class WatermarkExample { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<SensorData> sensorData = env.addSource(new SensorSource()); DataStream<SensorData> timestampedAndWatermarked = sensorData .assignTimestampsAndWatermarks( WatermarkStrategy .<SensorData>forBoundedOutOfOrderness(Duration.ofSeconds(10)) .withTimestampAssigner((event, timestamp) -> event.getTimestamp()) ); timestampedAndWatermarked .keyBy(SensorData::getId) .window(TumblingEventTimeWindows.of(Time.minutes(1))) .reduce((a, b) -> new SensorData(a.id, a.temperature + b.temperature)) .print(); env.execute("Watermark Example"); } }

在这个修改后的示例中，我们采用了水印策略，允许最多 10 秒的无序事件。这在数据可能因网络问题或合并来自不同源的流而延迟的情况下很常见。

通过利用事件时间和水印，开发人员可以构建强大的流应用程序，这些应用程序能够适应数据偏差和网络延迟，使其适合各种工业、金融和互联网应用程序中的实时数据处理。

创建自定义数据源

虽然 Flink 提供了大量内置源，但有时定制解决方案是必要的。本节重点介绍开发在 Flink 应用程序中使用的自定义数据源。

创建自定义数据源

Flink 中自定义数据源的开发指南

在 Apache Flink 中开发自定义数据源可以定制数据摄取，以满足内置数据源可能无法满足的特定要求。对于数据来自非标准源或需要自定义处理逻辑才能将其输入 Flink 管道的情况，此功能至关重要。本节将介绍在 Flink 中实现自定义源的必要步骤和方法，并附有示例代码。

了解 SourceFunction 接口

在 Flink 中创建自定义源的关键组件是SourceFunction接口。该接口为所有自定义源提供了支柱，定义了管理源生命周期和数据发射的基本方法。

以下是界面中的主要方法SourceFunction：

run(SourceContext ctx)：调用此方法来启动数据源。它应该包括生成或检索数据的逻辑。数据项通过该方法发送到 Flink 流管道SourceContext.collect(T)。
cancel()：调用此方法来取消源的执行。这对于确保安全停止源和正确管理资源非常重要。

自定义源的逐步实施

1. 定义您的数据类型

首先，定义源将发出的数据类型。这可以是简单类型（如整数或字符串），也可以是更复杂的类型（如自定义类）。

public class MyCustomType { private String data; // constructors, getters, and setters }

2. 实现SourceFunction接口

创建一个新类来实现SourceFunction您定义的数据类型。实现所需的方法 (run和cancel) 来处理数据生成和源代码控制逻辑。

import org.apache.flink.streaming.api.functions.source.SourceFunction; public class MyCustomSource implements SourceFunction<MyCustomType> { private boolean isRunning = true; @Override public void run(SourceContext<MyCustomType> ctx) throws Exception { while (isRunning) { MyCustomType data = fetchData(); if (data != null) { ctx.collect(data); } } } @Override public void cancel() { isRunning = false; } private MyCustomType fetchData() { // Implement logic to fetch or generate data return new MyCustomType("example data"); } }

在此示例中，fetchData是一个方法存根，您可以在其中放置逻辑来检索或生成要使用 Flink 处理的数据。

与 Flink 作业集成

自定义源实现后，您可以将其集成到 Flink 数据处理作业中。您可以按照以下方法执行此操作：

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class MyFlinkJob { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // Add your custom source env.addSource(new MyCustomSource()) .print(); env.execute("My Custom Source Flink Job"); } }

在此示例中，将其MyCustomSource添加到环境中，并打印发出的数据。这个简单的作业设置可以根据您的应用程序需求通过额外的转换和接收器进行扩展。

高级功能的注意事项

容错：CheckpointedFunction如果您需要容错，请在源中实现该接口。这对于确保在发生故障时可以保存状态并正确恢复状态至关重要。
并行执行：为了可扩展性，请考虑使源代码可并行化。这涉及实现ParallelSourceFunction或RichParallelSourceFunction接口而不是SourceFunction.

在 Apache Flink 中开发自定义数据源使开发人员能够扩展其流处理应用程序的功能，从而能够与定制或利基数据生产者集成并有效地处理定制的数据流。

测试和调试 Flink 应用程序

Flink 测试简介

测试是任何应用程序（包括使用 Apache Flink 构建的应用程序）开发生命周期中的关键阶段。由于流处理的分布式和复杂性，测试 Flink 应用程序可能具有挑战性，但对于确保应用程序的正确性和性能至关重要。

使用 JUnit 进行单元测试

JUnit 是 Java 中流行的测试框架，它可以有效地用于测试 Flink 应用程序。 Flink 提供了一组测试类，旨在让测试流处理逻辑更简单、更有效。

1.使用TestStreamEnvironment

该类TestStreamEnvironment允许开发人员在更受控的环境中测试他们的 Flink 应用程序。以下是如何将其与 JUnit 结合使用：

import org.apache.flink.streaming.util.TestStreamEnvironment; import org.apache.flink.test.util.AbstractTestBase; import org.junit.After; import org.junit.Before; import org.junit.Test; public class MyFlinkTest extends AbstractTestBase { @Before public void setup() throws Exception { // Set up the TestStreamEnvironment env = TestStreamEnvironment.createRemoteEnvironment("localhost", 1, flinkConfig); env.setParallelism(1); } @Test public void testSomeOperator() throws Exception { // Define your Flink job env.fromElements(1, 2, 3, 4) .map(value -> value * 2) .addSink(new CollectSink()); // Execute env.execute("Test Job"); // Assertions assertEquals(Arrays.asList(2, 4, 6, 8), CollectSink.values); } @After public void cleanUp() { CollectSink.values.clear(); } // A custom sink to collect outputs for assertions private static class CollectSink implements SinkFunction<Integer> { static final List<Integer> values = new ArrayList<>(); @Override public void invoke(Integer value, Context context) throws Exception { values.add(value); } } }

2. 测试有时限的逻辑

当处理 Flink 中的时间敏感操作（例如窗口）时，TestStreamEnvironment可以模拟可以在测试中操纵的时间进程：

@Test public void testWindowFunction() throws Exception { // Define the Flink job with window function env.fromElements(Tuple2.of("key", 1), Tuple2.of("key", 2)) .keyBy(0) .timeWindow(Time.seconds(5)) .sum(1) .addSink(new CollectSink()); // Manipulate time env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); env.execute("Window Test Job"); // Assertions assertEquals(Collections.singletonList(Tuple2.of("key", 3)), CollectSink.values); }

Flink 中的调试技巧

由于 Flink 应用程序的分布式特性，调试 Flink 应用程序通常比传统应用程序更复杂。以下是一些常用的技术和工具：

1. 日志记录

有效的日志记录是调试的第一道防线。 Flink 使用 SLF4J 进行日志记录；正确配置它可以帮助您跟踪问题。

// Set up logging inside your Flink operators log.info("Processing value: {}", value);

2.使用Flink的Web UI

Flink 的 Web UI 提供了正在运行的作业的详细视图，包括并行性、吞吐量，并且通常可以向您指出作业中的瓶颈或故障。

3. 指标体系

Flink 的指标系统允许在运行时跟踪各种性能指标。这些指标对于了解应用程序在不同条件下的行为至关重要，并且可以与 Prometheus 等外部监控系统集成。

MetricGroup metricGroup = getRuntimeContext().getMetricGroup().addGroup("MyMetrics"); Counter myCounter = metricGroup.counter("myCounter"); myCounter.inc();

通过采用这些测试和调试策略，您可以在 Flink 应用程序投入生产之前有效确保其可靠性和效率。这种预防性方法可以最大限度地减少生命周期后期的破坏性问题，从而提高整体应用程序质量。

最佳实践和优化

优化 Apache Flink 应用程序需要深入了解平台的功能以及数据和计算任务的具体特征。这里我们将深入探讨几个最佳实践和优化策略，以增强 Flink 应用程序的性能和可扩展性。本讨论涵盖状态管理、检查点策略和资源调整。

高效的状态管理

状态管理是 Apache Flink 流处理的一个关键方面，因为它直接影响状态计算的正确性和速度。以下是在 Flink 应用程序中有效管理状态的一些最佳实践：

选择正确的状态后端： Flink 支持不同的状态后端，例如 MemoryStateBackend、FsStateBackend 和 RocksDBStateBackend。对于大状态，推荐使用RocksDBStateBackend，因为它将数据存储在磁盘而不是JVM堆中，减少了内存压力。
适当使用托管操作状态： Flink 提供两种类型的状态管理：托管状态管理和原始状态管理。与原始状态相比，更喜欢托管状态（ValueState、ListState 等），因为它可以优化序列化、持久性和增量检查点。
利用状态 TTL（生存时间）： Flink 允许为状态条目设置 TTL，这可以通过自动清除旧条目来帮助管理状态大小。这在欺诈检测等状态相关性随着时间推移而降低的应用中特别有用。
增量检查点：使用 RocksDBStateBackend 时，启用增量检查点。它通过仅保存自上一个检查点以来的更改来减少需要检查点的数据量，从而最大限度地减少 I/O 操作并加快检查点过程。

检查点策略

高效的检查点对于容错和确保对应用程序性能的影响最小至关重要。以下是 Flink 中优化检查点的策略：

调整检查点间隔：设置合适的检查点间隔至关重要。过于频繁的检查点可能会压垮系统并降低性能，而不频繁的检查点可能会导致更长的恢复时间。监视应用程序以找到平衡的间隔。
异步和增量检查点：利用异步和增量检查点来减少检查点对处理延迟的影响。异步检查点允许在拍摄状态快照的同时继续进行数据处理。
外部化检查点：配置要外部化的检查点，这意味着它们在作业失败后保留。这使得恢复策略更加灵活，因为这些检查点可用于从特定点恢复。

资源调优

优化的资源分配是 Flink 应用程序获得良好性能的关键。以下是一些有效资源调整的技术：

任务槽和并行性：正确配置Flink中任务槽的数量。每个任务管理器都应该有多个与 CPU 核心相匹配的插槽。此设置可确保有足够的并行性，而不会压垮任务管理器。
网络缓冲区配置：根据应用程序的数据流要求调整网络缓冲区。网络缓冲区在跨任务的洗牌和广播期间保存数据。缓冲区不足可能会导致背压，从而减慢应用程序的速度。
内存管理： Flink 提供了详细的内存管理配置，包括托管内存、网络内存和 JVM 开销。根据作业要求调整这些参数有助于防止内存不足错误并提高性能。
微调算子链：算子链允许 Flink 通过减少算子之间的数据切换来优化执行。但是，过多的链接可能会导致每个任务线程消耗更高的内存。禁用某些运算符的链接可以帮助更有效地分配负载。

优化序列化

序列化在 Flink 的性能中起着至关重要的作用，因为所有在操作符之间移动或保留状态的数据都必须序列化：

尽可能选择 POJO：如果数据类型被识别为 POJO（普通旧 Java 对象），Flink 可以自动优化序列化和运算符算法。确保您的数据类型满足 POJO 要求以获得最佳性能。
使用 Kryo 和自定义序列化程序：对于 POJO 优化未涵盖的复杂数据类型，请考虑使用 Kryo 序列化程序。 Kryo 快速高效，但并不总是像您可以为数据类型实现的专用序列化器那样节省空间。

通过应用这些最佳实践和调优策略，开发人员可以显着提高 Apache Flink 应用程序的效率、可靠性和可扩展性。每个 Flink 部署都是独特的，因此应根据应用程序和环境的特定要求和约束来调整这些策略。

结论和更多资源

在本培训文档中，我们系统地探讨了 Apache Flink 的各个方面，使您能够全面了解其操作（从初始设置到高级数据处理技术）。在这里，我们将概述所讨论的主要主题，并指导您获取更多资源，以扩展您对 Flink 的知识和掌握。

Apache Flink 简介

我们从定义 Apache Flink 的核心原则和架构开始了我们的探索。 Flink 以其在流处理方面的稳健性而闻名，可在有界和无界数据流上实现高吞吐量和低延迟操作，使其成为现代实时数据处理环境中不可或缺的工具。为了更细致地了解 Flink 的架构，您可以查阅Apache Flink 架构的官方架构概述。

设置开发环境

在介绍性发言之后，我们深入研究了功能开发环境的建立。这涉及 Flink 的安装和必要工具的设置，这是高效且有效的应用程序开发的先决条件。 Flink 官方文档提供了全面的入门指南，可以在设置 Flink中访问。

创建并运行简单的 Flink 应用程序

接下来的设置，我们介绍了创建基本 Flink 应用程序的过程。这一实践练习作为动手实践的开始，展示了实现和运行 Flink 应用程序的轻松程度。对于希望进一步尝试 Flink 的初学者，Siladitya Ghosh 的 Medium 文章提供了可供尝试的简单项目示例。可以在这里访问。

了解 Flink 中的数据源

正确识别和利用数据源是 Flink 的基础。我们的讨论涵盖了各种数据源，例如 Kafka、集合和文件，演示了如何将这些数据无缝集成到 Flink 应用程序中。 Flink 文档深入介绍了数据源实现，您可以在Flink 中的数据源中找到这些实现。

Flink 中的数据转换

Map、filter 和 keyBy 等数据转换操作在数据处理任务中至关重要。我们介绍了如何在 Flink 中应用这些转换来有效地操作和处理数据流。 Mage 的综合指南提供了有关这些操作的更多示例和上下文，可在此处访问。

使用 Flink 处理复杂事件

我们还探索了复杂的事件处理，它允许处理复杂的多流事件模式。此功能对于需要详细实时分析和模式检测的应用程序至关重要。有关复杂事件处理的更多见解可以在阿里云博客中找到，该博客在此处讨论了 Flink 的高级功能。

创建自定义数据源

有时内置数据源不够，导致需要创建自定义数据源。我们讨论了制作这些来源以根据特定要求定制数据输入所涉及的方法和注意事项。有关创建自定义数据源的其他教程可在Flink 中的自定义数据源中找到。

测试和调试 Flink 应用程序

通过有效的测试和调试实践确保 Flink 应用程序的可靠性是另一个重要主题。本节旨在帮助您开发能够在不同环境中无故障运行的强大应用程序。 Tutorialspoint 为初学者提供了一个很好的起点，重点介绍此处提供的调试技术。

最佳实践和优化

最后，我们重点介绍了 Flink 应用程序的最佳实践和详细优化策略。这是增强应用程序的性能、可扩展性和可管理性的关键。您可以通过参考高级资源（例如此处有关性能调优的 Flink 文档）

你可能感兴趣的:(flink)

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Flink Checkpoint 状态后端详解：类型、特性对比及场景化选型指南
ApacheFlink提供了多种状态后端以支持Checkpoint机制下的状态持久化，确保在故障发生时能够快速恢复状态并实现Exactly-Once处理语义。以下是几种常见状态后端的详细介绍及其对比情况，以及不同场景下的选型建议：1.MemoryStateBackend（内存状态后端）描述：MemoryStateBackend将状态数据存储在TaskManager的JVM堆内存中，并在Checkp
Flink 自定义类加载器和子优先类加载策略 lifallen Flink 数据库数据结构大数据 flink java 分布式
子类优先加载Flink默认采用了子优先（Child-First）的类加载策略来加载用户代码，以解决潜在的依赖冲突问题。我们可以通过源码来证明这一点。ChildFirstClassLoader的实现Flink中负责实现“子优先”加载逻辑的核心类是ChildFirstClassLoader。其关键的loadClassWithoutExceptionHandling方法定义了类加载的顺序。//...ex
Flink window 源码分析4：WindowState 北_鱼 Flink flink 大数据 big data
Flinkwindow源码分析1：窗口整体执行流程Flinkwindow源码分析2：Window的主要组件Flinkwindow源码分析3：WindowOperatorFlinkwindow源码分析4：WindowState本文分析的源码为flink1.18.0_scala2.12版本。reduce、aggregate等函数中怎么使用WindowState？主要考虑reduce、aggregate
Flink实战（七十）：监控（二）搭建flink可视化监控 Pushgateway+ Prometheus + Grafana （windows ）王知无(import_bigdata) Flink系统性学习专栏 flink 大数据
1Flink的配置:在flink配置⽂件flink-conf.yaml中添加：metrics.reporter.promgateway.class:org.apache.flink.metrics.prometheus.PrometheusPushGatewayReportermetrics.reporter.promgateway.host:localhost#promgateway主要是Pus
JDBC时间类型与Java类型、Flink SQL时间类型与Java类型的对应关系哈哈很哈哈 java flink sql
一、JDBC时间类型与Java类型的对应关系JDBC类型Java类型说明TIMESTAMPjava.sql.Timestamp表示日期和时间（含毫秒）DATEjava.sql.Date仅表示日期（不含时间）TIMEjava.sql.Time仅表示时间（不含日期）说明：java.sql.Timestamp继承自java.util.Date，可精确到纳秒（实际常用毫秒）。java.sql.Date和j
Flink Oracle CDC logminer ogg 对比， PDB logminer CDC 测试
维度FlinkCDC（主库）FlinkCDC（备库）Flinkconnector（Kafka）ADG(ActiveDataGuard)同步机制基于LogMiner解析RedoLog需通过OGG同步备库基于LogMiner解析RedoLog需通过OGG捕获日志后写入Kafka物理复制，主备数据块一致架构特点需直连主库独立进程，低侵入性独立进程，低侵入性仅支持查询，无法捕获实时变更数据链路oracle
基于Prometheus的flink性能监控小坑记录 darkness0604 flink 大数据 java 大数据 flink
背景公司内的flink集群跑了挺长一段时间了，一直也没有对其进行一个比较完整的监控，最近打算着手做这件事情，经过网上的调研，目前公司采用的部署模式是per-job模式，最终选用了基于prometheus，把job指标推送到中间网关的pushgateway上面，然后prometheus去抓取pushgateway上面的信息，从而实现对flink做性能监控，最后通过Grafana进行展示。问题在接入过
PushGateway+Prometheus+Grafana构建Flink实时监控站在最高处呐喊的男人! flink flink 大数据 pushgateway prometheus grafana
#组件简介flinkAPP和linuxsystem两部分，是我们要收集指标数据的组件Pushgateway：是一个推送收集和推送数据的组件Node_exporter：数据导出组件Prometheus：系统监控和预警框架Grafana：可视化展示平台#环境搭建注意，如果浏览器访问不到，iptables-IINPUT-ptcp--dport9090-jACCEPT1.0.flink下载安装包https
掌握Apache Flink：实时数据处理与分析实操泓三宝
本文还有配套的精品资源，点击获取简介：ApacheFlink是一个高效的开源流处理框架，专为实时数据处理和分析设计。本文将通过一个具体的代码示例，深入讲解Flink的核心概念如DataStream、FlatMap和ReduceMap，并展示如何将这些概念应用于实际场景。通过解析“wiki-edits”数据流的实例，我们将探讨如何使用Flink的API进行数据转换、聚合和实时分析，包括窗口和触发器的
数据科学与大数据技术专业的核心课程体系及发展路径全解析 YangYang9YangYan 大数据
CDA数据分析师证书含金量高，适应了未来数字化经济和AI发展趋势，难度不高，行业认可度高，对于找工作很有帮助。一、课程体系三维地图二、核心课程能力矩阵课程模块关键技能行业应用场景工具链分布式计算Spark调优用户行为日志分析AWSEMR/Databricks数据挖掘特征工程金融反欺诈模型Scikit-learn实时数据处理Flink窗口计算物联网设备监控Kafka+Flink数据治理元数据管理企业
一文搞懂FLINK框架支持的所有源算子（包含代码实现）每天五分钟玩转人工智能 Flink技术实战 flink 大数据源算子批模式流模式
本文重点源算子是FLINK流式计算框架中的第一个操作符，它用于从外部数据源（如文件、消息队列、套接字等）读取数据，并将数据转化为FLINK的数据流DataStream，然后构建进行转换处理，所以source就是FLINK整个处理程序的输入端。FLINK提供了以下几种常用的源算子1.FileSource：FileSource是FLINK中最常用的源算子之一，它用于从文件中读取数据。FileSourc
基于Flinkcep-1.11.2 动态规则修改实践
1，事先说明这个代码搞出来说白了就是在大佬的代码参考下完成的，之前就一直想搞cep规则动态修改，苦于对cep的源码不熟悉，没法下手。之前有个大佬搞过基于flink-cep1.8版本的动态规则修改。后来有个大佬搞过基于flink-cep1.1.0的。https://mp.weixin.qq.com/s/mh--wQvAWQq2tDPKq0-m8Q我看代码的逻辑是后者更复杂，前者更好理解，后者需要修改
Flink 状态管理设计详解：StateBackend、State、RocksDB和Namespace lifallen Flink flink 大数据数据库 java apache 分布式
为什么需要StateBackend？——职责分离原则我们可以用一个银行的例子来类比：State(如ValueState,ListState)就像是你的银行卡。AbstractKeyedStateBackend就像是银行的整个后台系统（包括总服务器、数据库、风控系统、会计系统等）。你不能直接用一张塑料卡片去操作你的钱，你需要把卡片插入ATM机或交给柜员，由他们背后的银行系统来完成真正的存取款、转账等
flink源码系列：RPC通信 Direction_Wind flink技术原理 flink rpc 大数据
这里写目录标题1.本节课目的2.开始本节内容2.1.RPC概念3.2.大数据组件常见的RPC实现技术3.3.Pekko（Akka）3.3.1.Akka、Pekko基本概念3.3.2.PekkoDemo事例3.3.2.1.PekkoData类3.3.2.2.PekkoRpcReceiverActor类3.3.2.3.PekkoRpcSenderActor类3.3.2.4.Demo类3.4.Flink
【Flink图计算源码解析】开篇：Flink图计算总览 hxcaifly Flink Flink原理和应用
文章目录1.图计算的作用2.本专题的写作目的3.FlinkGelly引擎总览3.1.Gelly的源码结构1.Graph的存储数据结构2.图的类别3.图的验证以及指标4.图的生成器5.Library6.图的迭代计算7.examples案例4.后记1.图计算的作用哲学上说事物之间普遍存在联系的，通常来说可以将事物看作图的顶点，事物间的联系看作图的边，典型的场景：对应于学术界的文献来说，每篇论文可以看作
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
Flink：处理有界流数据的wordcount 小易学编程 flink 大数据
数据源：helloworldhelloflinkhelloscala有界流：packagechapter02importorg.apache.flink.streaming.api.scala._/***ClassName:BoundedStreamWordCount*Package:chapter02*Description:**@Author小易日拱一卒*@Create2025-06-272:
10.jobManager初始化流程
JobManager初始化流程1.找到入口类StandaloneSessionClusterEntrypoint该类位于Flink源码的以下路径中：flink-runtime/src/main/java/org/apache/flink/runtime/entrypoint/StandaloneSessionClusterEntrypoint.java2.查看main方法/**Entrypoint
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
ARTS-第七周梧上擎天
Algorithm一、用链表和二叉树实现Set集合GitHub地址二、散列表散列表就是使用数组下标随机访问时候复杂度为O（1）的特性，当我们按照键值查找元素时，通过散列函数将key转化为下标然后进行访问，当有大量散列冲突时会退化为O（n）的时间复杂度。解决散列冲突的方法：开放寻址法和链表法ReviewFlink动态表概念原文地址流和表为什么可以相互转换呢？我们都知道传统Mysql的主从复制是通过b
如何解决一个flink on yarn集群上已经跑了一个job，再提交第二个job的时候，task报java heap size oom的问题 fzip Flink flink java 大数据
在FlinkonYARN集群中提交第二个Job时出现Task的JavaHeapSizeOOM（内存溢出），核心原因是集群资源不足（第一个Job已占用大量资源，第二个Job分配的内存不够）或Job资源配置不合理（单个Job申请资源过多，或内存参数设置与实际需求不匹配）。解决需从“资源排查”“Job配置优化”“集群资源扩容”三个维度入手，具体步骤如下：一、先排查核心原因：确认资源占用与配置是否匹配1.
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
Flink cdc同步增量数据timestamp字段相差八小时（分析｜解决）不是粘贴复制的！ BUG FIXER 大数据 flink android 大数据
问题我使用flinkcdc同步mysql到mysql遇到了timestamp字段缺少八小时的问题。很少无语，flink,cdc,debezium时区都设置了，没有任何效果！分析问题出现在mysqlbinlog身上！！！因为默认mysql会使用UTC来存储binlog,你可以使用下方的sql验证：mysqlbinlog--base64-output=DECODE-ROWS-v--start-date
如何解决Flink CDC同步时间类型字段8小时时间差的问题，以MySQL为例智海观潮 Flink flink flink cdc 大数据实时数据同步
在使用FlinkCDC进行数据同步时，默认情况下经常会遇到时间类型的字段与实际值相差8个小时的问题。本文以MySQL为例提供解决方案，其他数据源也可以参考这类实现。原文链接：https://mp.weixin.qq.com/s/_f41ES8UquM-kj3Ie8JU_g1.设置server时区比如MySQL服务的时区为UTC时间，可以参考以下code设置时区。MySqlSourcemySqlSo
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

flink

Apache Flink 简介

Apache Flink 概述

可扩展性和性能

与其他大数据处理框架的区别

基本术语和组件

设置开发环境

设置开发环境

先决条件

安装Java

安装 Apache Flink

设置集成开发环境 (IDE)

验证安装

创建并运行简单的 Flink 应用程序

创建并运行简单的 Flink 应用程序

第1步：创建Maven项目

第二步：编写Flink程序

第三步：编译并打包应用程序

第 4 步：运行 Flink 应用程序

了解 Flink 中的数据源

了解 Flink 中的数据源

了解 Flink 中的数据源

集成静态集合作为数据源

从文件中读取

集成 Kafka 作为流数据源

Flink 中的数据转换

Flink 中的数据转换

功能map​

功能filter​

功能keyBy​

使用 Flink 处理复杂事件

使用 Flink 处理复杂事件

窗口化

活动时间和水印

创建自定义数据源

创建自定义数据源

Flink 中自定义数据源的开发指南

了解 SourceFunction 接口

自定义源的逐步实施

1. 定义您的数据类型

2. 实现SourceFunction接口

与 Flink 作业集成

高级功能的注意事项

测试和调试 Flink 应用程序

测试和调试 Flink 应用程序

测试和调试 Flink 应用程序

Flink 测试简介

使用 JUnit 进行单元测试

1.使用TestStreamEnvironment

2. 测试有时限的逻辑

Flink 中的调试技巧

1. 日志记录

2.使用Flink的Web UI

3. 指标体系

最佳实践和优化

最佳实践和优化

高效的状态管理

检查点策略

资源调优

优化序列化

结论和更多资源

Apache Flink 简介

设置开发环境

创建并运行简单的 Flink 应用程序

了解 Flink 中的数据源

Flink 中的数据转换

使用 Flink 处理复杂事件

创建自定义数据源

测试和调试 Flink 应用程序

最佳实践和优化

你可能感兴趣的:(flink)

功能`map`

功能`filter`

功能`keyBy`