超人在良家-阿启

Flink SQL的使用

文章目录

一、Flink SQL简介
- 1.1 Flink SQL 特点
- 1.2 工作原理
- 1.3 应用场景
二、Flink SQL语法
- 2.1 CREATE create语句
- 2.2 SELECT select语句
- - 2.2.1 简单查询
  - 2.2.2 过滤操作
  - 2.2.3 聚合操作
  - 2.2.4 窗口操作（针对流数据）
- 2.3 INSERT 语句
- 2.4 输出到控制台（用于调试）
三、基础流程
- 3.1、所有Flink的操作都是基于StreamExecutionEnvironment；
- 3.2、TableEnvironment 是 Flink 中用于统一处理表和 SQL 操作的核心接口；
- 3.3、注册数据源
- 3.4 执行SQL
- 3.5 将结果输出
- 3.6 执行作业
四、对于JDBC的操作案例
- 4.1 引入依赖
- 4.2 创建sql文本
- 4.3 读取sql文本中的SQL
五、TableEnvironment类的方法使用
- 5.1 from（）指定操作的表对象--执行一个注册过的表的扫描
- 5.2 FromValues （）
- 5.3 Select （）
- 5.4 as（）
- 5.5 filter（）/where（）用法一样
- - 5.5.1 简单的相等条件过滤：
  - 5.5.2 基于字符串列的模糊匹配过滤（使用LIKE操作符）：
  - 5.5.3多条件组合过滤：
- 5.6 AddColumns
窗口操作

一、Flink SQL简介

Flink SQL是apache Flink中的一种声明式的SQL API，它允许用户已SQL语句的形式对有界（批处理）和无界（流处理）数据进行查询和分析。
中文官网：【https://nightlies.apache.org/flink/flink-docs-release-1.18/zh/docs/dev/】

1.1 Flink SQL 特点

统一的批流处理：
Flink SQL对批处理和流处理提供了统一的编程模型。使用相同的SQL雨具，可以处理静态数据集（批处理)以及实时流入的动态数据（流处理）
声明式编程：
用户只需要通过SQL语句描述所需的数据转换和查询逻辑，而无需关心底层的世贤细节。
比如，要从一个包含用户行为数据的表中筛选出特定时间段内活跃用户的行为记录，只需要用SQL的WHERE子句指定时间范围和活跃用户的条件即可，无需手动编写复杂的代码逻辑来实现数据筛选和处理。
与标准SQL高度兼容：
Flink SQL支持大部分标准的SQL语法。
比如，常见的SELECT、JOIN、GROUP BY等操作在Flink SQL中都有相应的视线，并且语法类似。
可扩展性：
Flink SQL可以与FLINK的其他功能模块（如用户自定义函数、连接器等）结合使用，满足复杂的业务需求。
比如，如果要对数据进行特定的业务逻辑处理，可以自定义一个函数并在FlInk SQL 中调用，同时，可以通过连接器链接到各种数据源（包kafka、hive、JDBC数据源等）进行数据的输入和输出

1.2 工作原理

解析和验证：
当用户提交一个Flink SQL查询时，首先会被解析器解析成抽象语法树（AST）。然后，验证器会对AST进行验证，检查语法是否正确以及所引用的表和列是否存在等。
优化：
进过验证的查询会被优化器进行优化。优化器会根据查询的特点和数据的分布情况，生成最优的执行计划。
执行：
优化后的执行计划会被转换成 Flink的数据流图（Dataflow Graph），并由Flink的执行引擎执行。
在流处理模式下，数据会持续流入，Flink SQL 会实时处理数据并输出结果；
在批处理模式下，数据会一次性加载并进行处理；

1.3 应用场景

实时数据分析：
在金融领域，实时监控股票交易数据，计算股票价格的移动平均线、涨跌幅等指标；
在电商领域，实时分析用户的行为数据，如用户点击、购买行为等，一遍及时调整营销策略；
数据集成
可以使用Flink SQL从多个数据源（如数据库、消息队列、文件系统等）读取数据，进行清洗、转换和整合，然后将结果写入到目标数据源中。
ETL（Extract，Transformation，Load）任务
执行数据抽取、转换和加载任务。从原始数据源中抽取数据，进行各种数据转换操作（如数据清洗、格式转换、字段计算等），然后将处理后的数据加载到目标存储系统中。
例如，从日志文件中抽取数据，去除无效记录，转换数据格式，然后加载到数据库中供后续分析使用。

二、Flink SQL语法

2.1 CREATE create语句

根据指定的表名创建一个表，如果同名表存在，则无法创建。

定义表
Flink SQL使用CREATE TABLE语句来定义数据源。

CREATE TABLE kafka_table（
	id BIGINT,
	name STRING,
	ts TIMESTAMP(3)
）WITH (
	'connector' = 'kafka',
	'topic' = 'test_topic',
	'properties.bootstrp.servers' = 'localhost:9092',
	'format' = 'json',
	'scan.startup.mode' ='earliest - offset'
);

定义一个名为mytable的表，包含id（长整型）、name（字符串）、ts（时间戳，进度为毫秒）的三个列。
WITH子句指定了 kafka 连接器的相关属性，包括
connector（连接器类型为kafka）、
topic（读取的kafka主题）、
properties.bootstrp.servers（卡发卡服务器的地址）、
format（数据格式为json）、
scan.startup.mode（从最早的偏移量开始读取）

   CREATE TABLE my_mysql_table (
       id INT,
       name VARCHAR(50),
       age INT
   ) WITH (
       'connector' = 'jdbc',
       'url' = 'jdbc:mysql://localhost:3306/mydatabase',
       'username' = 'your_username',
       'password' = 'your_password',
       'table - name' = 'mytable_in_mysql'
   );

在上述示例中：
connector = ‘jdbc’：指定使用 JDBC Connector 来连接外部数据库。
url：指定了 MySQL 数据库的连接地址。localhost表示本地主机，3306是 MySQL 的默认端口，mydatabase是你要连接的数据库名称。
username和password：是用于登录 MySQL 数据库的用户名和密码。
table - name：是 MySQL 数据库中你要与之交互的表的名称。

自定义数据源（通过实现接口）
除了连接常见的数据源，我们还可以自定义数据源。这需要实现TableSource接口。例如，定义一个简单的自定义数据源来生成数字序列

   import org.apache.flink.streaming.api.datastream.DataStream;
   import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
   import org.apache.flink.table.api.DataTypes;
   import org.apache.flink.table.api.TableSchema;
   import org.apache.flink.table.sources.StreamTableSource;
   import java.util.Arrays;
   import java.util.List;
   public class CustomNumberSource implements StreamTableSource<Integer> {
       private final List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5);
       @Override
       public DataStream<Integer> getDataStream(StreamExecutionEnvironment execEnv) {
           return execEnv.fromCollection(numbers);
       }
       @Override
       public TableSchema getTableSchema() {
           return TableSchema.builder()
                  .field("number", DataTypes.INT())
                  .build();
       }
   }

然后再Flink SQL环境中注册这个定义数据源：

   StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
   EnvironmentSettings settings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build();
   StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, settings);
   tableEnv.registerTableSource("custom_number_table", new CustomNumberSource());

2.2 SELECT select语句

2.2.1 简单查询

从前面定义的kafka_table中查询id和name 列：
SELECT id,name From kafka_table;

这里返回一个包含id和name的两列数据的结果集

2.2.2 过滤操作

使用where 子句进行过滤，例如从kafka_name中查询id 大于10且name以“A”开头的记录
select * from kafka_name where id > 10 and name like ‘A%’；

2.2.3 聚合操作

sum、count、avg、group by等，
比如计算kafka_table中id的总和：select sum(id) from kafka_name;
分组聚合，按name分组计算id的平均值：select name, avg(id) from kafka_name group name;

2.2.4 窗口操作（针对流数据）

对于流数据，窗口操作非常重要。
例如，定义一个滚动窗口来计算每10秒内id的总和：

   SELECT TUMBLE_START(ts, INTERVAL '10' SECOND) as window_start, SUM(id)
   FROM kafka_table
   GROUP BY TUMBLE(ts, INTERVAL '10' SECOND);

这里使用TUMBLE函数来定义滚动窗口，TUMBLE_START函数用于获取窗口的开始时间，对id进行求和操作实在每个10秒的窗口内惊醒的。

2.3 INSERT 语句

插入到另一个表（可以是外部存储）

使用insert into 语句将查询到的结果插入到另一个表中。

例如，将前面查询到的id>10的记录插入到一个名为filtered_table表中

   INSERT INTO filtered_table
       SELECT * FROM kafka_table WHERE id > 10;

2.4 输出到控制台（用于调试）

可以将结果输出到控制台进行调试。
在java代码中，执行查询并将结果转换为DataStream后打印输出：

   Table resultTable = tableEnv.sqlQuery("SELECT * FROM kafka_table WHERE id > 10");
   DataStream<Row> resultStream = tableEnv.toDataStream(resultTable);
   resultStream.print();

三、基础流程

1. 所有Flink的操作都是基于StreamExecutionEnvironment；
2. TableEnvironment 是 Flink 中用于统一处理表和 SQL 操作的核心接口；
3. 注册数据源
4. 执行SQL
5. 将结果输出
6. 执行作业

3.1、所有Flink的操作都是基于StreamExecutionEnvironment；

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

// 创建流执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

3.2、TableEnvironment 是 Flink 中用于统一处理表和 SQL 操作的核心接口；

#创建TableEnviroment 的方法
# 方式一：使用默认的配置创建流处理的TableEnvironment  --  inStreamingMode
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.TableEnvironment;

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
EnvironmentSettings settings = EnvironmentSettings.newInstance().inStreamingMode().build();
TableEnvironment tableEnv = TableEnvironment.create(settings);

# 方式二：创建用于批处理的 TableEnvironment  --  inBatchMode
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.TableEnvironment;

ExecutionEnvironment batchEnv = ExecutionEnvironment.getExecutionEnvironment();
EnvironmentSettings settings = EnvironmentSettings.newInstance().inBatchMode().build();
TableEnvironment tableEnv = TableEnvironment.create(settings);

3.3、注册数据源

# 方式一：从文件系统注册CSV数据源
// 定义 CSV 文件的路径和格式
String filePath = "/path/to/csv/file.csv";
String[] fieldNames = {"col1", "col2", "col3"};
TypeInformation[] fieldTypes = {Types.STRING, Types.INT, Types.DOUBLE};

// 注册表
tableEnv.connect(new FileSystem().path(filePath))
       .withFormat(new Csv()
               .fieldDelimiter(',')
               .fieldNames(fieldNames)
               .deriveSchema())
       .withSchema(new Schema()
               .field("col1", DataTypes.STRING())
               .field("col2", DataTypes.INT())
               .field("col3", DataTypes.DOUBLE()))
       .createTemporaryTable("myCsvTable");
# 方式二：从 Kafka 注册数据源（示例）
Properties properties = new Properties();
properties.setProperty("bootstrap.servers", "localhost:9092");
properties.setProperty("group.id", "testGroup");

tableEnv.connect(new Kafka()
               .version("0.11")
               .topic("myTopic")
               .startFromEarliest()
               .properties(properties))
       .withFormat(new Json())
       .withSchema(new Schema()
                // 定义 Kafka 消息中的数据结构对应的表结构
               .field("key", DataTypes.STRING())
               .field("value", DataTypes.STRING()))
       .createTemporaryTable("myKafkaTable");


# 方式三：注册自定义函数（如果需要）--注册一个简单的自定义标量函数
// 自定义函数类
public class MyCustomFunction extends ScalarFunction {
    public int addOne(int i) {
        return i + 1;
    }
}

// 注册函数
tableEnv.createTemporarySystemFunction("myAddOneFunction", new MyCustomFunction());

3.4 执行SQL

// 执行一个简单的 SQL 查询
Table resultTable = tableEnv.sqlQuery("SELECT col1, col2 + 1 AS newCol2 FROM myCsvTable");

// 或者使用 Table API 操作创建和转换表
// 使用 Table API
Table myTable = tableEnv.from("myCsvTable");
Table filteredTable = myTable.filter($("col2").isGreaterThan(10));

常用的方法

// 创建表环境
TableEnvironment tableEnv = ...;
// 创建输入表，连接外部系统读取数据
tableEnv.executeSql("CREATE TEMPORARY TABLE inputTable ... WITH ( 'connector' 
= ... )");
// 注册一个表，连接到外部系统，用于输出
tableEnv.executeSql("CREATE TEMPORARY TABLE outputTable ... WITH ( 'connector' 
= ... )");
// 执行 SQL 对表进行查询转换，得到一个新的表
Table table1 = tableEnv.sqlQuery("SELECT ... FROM inputTable... ");
// 使用 Table API 对表进行查询转换，得到一个新的表
Table table2 = tableEnv.from("inputTable").select(...);
// 将得到的结果写入输出表
TableResult tableResult = table1.executeInsert("outputTable");

3.5 将结果输出

# 方法一：输出到标准输出（示例）
tableEnv.toAppendStream(resultTable, Row.class).print();

# 方法二：输出到文件系统（示例）
tableEnv.connect(new FileSystem().path("/path/to/output/file.csv"))
       .withFormat(new Csv().fieldDelimiter(','))
       .withSchema(new Schema()
               .field("col1", DataTypes.STRING())
               .field("file:///path/to/output/file.csv", DataTypes.INT()))
       .createTemporaryTable("outputTable");
tableEnv.insertInto("outputTable", resultTable);

3.6 执行作业

env.execute("My Table API and SQL Job");

四、对于JDBC的操作案例

4.1 引入依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>FlinkDemo-1-17</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.16.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java</artifactId>
            <version>1.16.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients</artifactId>
            <version>1.16.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-api-java-bridge</artifactId>
            <version>1.16.3</version>
        </dependency>

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-table-planner_2.12</artifactId>
            <version>1.16.3</version>
        </dependency>
        <!-- 从jdbc中读取数据的依赖-->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-jdbc</artifactId>
            <version>1.16.3</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>5.1.30</version>
        </dependency>

        <!-- 从文件中读取数据的依赖-->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-files</artifactId>
            <version>1.16.3</version>
        </dependency>
        <!-- 从kafka中读取数据的依赖-->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka</artifactId>
            <version>1.16.3</version>
        </dependency>

        <!-- 从数据生成器中地区数据的依赖-->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-datagen</artifactId>
            <version>1.17.0</version>
        </dependency>
    </dependencies>



</project>

4.2 创建sql文本

   CREATE TABLE myflink (
       id BIGINT,
       apply_name VARCHAR(50)
   ) WITH (
   'connector' = 'jdbc',
   'url' = 'jdbc:mysql://localhost:3306/eam_pc',
   'username' = 'root',
   'password' = 'root',
   'table-name' = 'pc_apply'
   );

4.3 读取sql文本中的SQL

package com.flink17.demo;


import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.TableResult;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;


/**
 * @author lc
 * @version 1.0
 * @date 2024/10/25 0025 14:52
 */
public class FlinkSQLMain {
    public static void main(String[] args) throws Exception {
         // 创建流执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        EnvironmentSettings settings = EnvironmentSettings.newInstance().inStreamingMode().build();
        TableEnvironment tableEnv  = TableEnvironment.create(settings);

        try {
            // 1.连接jdbc数据源
            String sql = readSqlFromFile("src\\main\\resources\\flink.sql");//数据源信息
            tableEnv.executeSql(sql);
            // 2.使用 tableEnv 执行读取到的 SQL 语句
            TableResult result = tableEnv.executeSql("SELECT id, apply_name FROM myflink");
            result.print();
        } catch (IOException e) {
            e.printStackTrace();
        }

        //查看转换的sql文件变化
        DataStreamSource<String> sqltxt = env.readTextFile("src\\main\\resources\\flink.sql");
        sqltxt.print();
        try {
            env.execute("Flink SQL Read File Example");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    public static String readSqlFromFile(String filePath) throws IOException {
        StringBuilder content = new StringBuilder();
        try (BufferedReader br = new BufferedReader(new FileReader(filePath))) {
            String line;
            while ((line = br.readLine())!= null) {
                content.append(line).append("\n");
            }
        }
        return content.toString();
    }

}

五、TableEnvironment类的方法使用

Table API支持如下操作。请注意不是所有的操作都可以既支持流也支持批；这些操作都具有相应的标记。
官网：https://nightlies.apache.org/flink/flink-docs-release-1.18/zh/docs/dev/table/tableapi/

5.1 from（）指定操作的表对象–执行一个注册过的表的扫描

和 SQL 查询的 FROM 子句类似。执行一个注册过的表的扫描
tableEnv.from(“已注册的myflink表名”)；

这里的前提是需要表已经注册进了flink中，比如4.2 中的myflink表；

5.2 FromValues （）

和 SQL 查询中的 VALUES 子句类似。基于提供的行生成一张内联表。

你可以使用 row(…) 表达式创建复合行：

5.3 Select （）

和 SQL 的 SELECT 子句类似。执行一个 select 操作。

你可以选择星号（*）作为通配符，select 表中的所有列。

Table orders = tableEnv.from("Orders");
Table result = orders.select($("a"), $("c").as("d"));

Table result = orders.select($("*"));

5.4 as（）

重命名字段

Table orders = tableEnv.from("Orders");
Table result = orders.as("x, y, z, t");

5.5 filter（）/where（）用法一样

filter()方法用于对表中的数据进行过滤，它接受一个表示过滤条件的表达式作为参数。表达式通常基于表中的列和一些操作符来构建。

支持的操作符和数据类型相关如下：

数值类型操作：对于数值类型（如INT、BIGINT、DOUBLE等）的列，可以使用比较操作符（如>、<、>=、<=、!=、===）进行过滤。例如，对于INT类型的age列，tableEnv.from(“myflink”).filter($(“age”) > 18)可以过滤出年龄大于18的行。
字符串类型操作：除了like操作符，还可以使用相等比较操作符来进行精确匹配。对于字符串列address，tableEnv.from(“myflink”).filter($(“address”) === “New York”)可以过滤出地址为New York的行。
布尔类型操作：如果表中有布尔类型的列，例如is_active，可以直接使用tableEnv.from(“myflink”).filter( $is_active"))来过滤出is_active为true的行，或者tableEnv.from("myflink").filter(!$ (“is_active”))来过滤出is_active为false的行。

filter()方法的参数是一个org.apache.flink.table.expressions.Expression类型的对象，它可以通过 $符号结合列名和各种操作符来构建，也可以使用更复杂的表达式对象构建方式，不过$ 符号是一种比较简洁直观的方法在简单场景下使用。

filter()操作返回一个新的Table对象，这个新表包含了满足过滤条件的行。后续可以继续对这个新表进行其他操作，如select、groupBy、join等操作，以进一步处理和分析数据。

需要注意的是，在实际使用中，要确保myflink表已经正确注册并且表的结构（列名和数据类型）与代码中的操作相匹配，否则可能会出现运行时错误。

5.5.1 简单的相等条件过滤：

假设myflink表中有一个名为id的列，要过滤出id等于10的行，可以使用tableEnv.from(“myflink”).filter( $(" i d ") === 10) 。这里$ (“id”)用于引用id列，===是相等比较操作符（在 Flink SQL 或 Table API 中用于严格相等比较）。

5.5.2 基于字符串列的模糊匹配过滤（使用LIKE操作符）：

如果表中有一个名为name的字符串列，要过滤出name以"John"开头的行，可以使用tableEnv.from(“myflink”).filter($(“name”).like(“John%”))。

5.5.3多条件组合过滤：

可以使用逻辑操作符（如AND、OR）组合多个过滤条件。例如，要过滤出id大于5并且name以"A"开头的行，可以使用tableEnv.from(“myflink”).filter(( $(" i d ") > 5) . an d ($ (“name”).like(“A%”)))。

Table orders = tableEnv.from("Orders");
Table result = orders.filter($("b").isEqual("red"));

5.6 AddColumns

执行字段添加操作。如果所添加的字段已经存在，将抛出异常

Table orders = tableEnv.from("Orders");
Table result = orders.addColumns(concat($("c"), "sunny"));

窗口操作

你可能感兴趣的:(Flink,1024程序员节,flink)

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Flink Checkpoint 状态后端详解：类型、特性对比及场景化选型指南
ApacheFlink提供了多种状态后端以支持Checkpoint机制下的状态持久化，确保在故障发生时能够快速恢复状态并实现Exactly-Once处理语义。以下是几种常见状态后端的详细介绍及其对比情况，以及不同场景下的选型建议：1.MemoryStateBackend（内存状态后端）描述：MemoryStateBackend将状态数据存储在TaskManager的JVM堆内存中，并在Checkp
Flink 自定义类加载器和子优先类加载策略 lifallen Flink 数据库数据结构大数据 flink java 分布式
子类优先加载Flink默认采用了子优先（Child-First）的类加载策略来加载用户代码，以解决潜在的依赖冲突问题。我们可以通过源码来证明这一点。ChildFirstClassLoader的实现Flink中负责实现“子优先”加载逻辑的核心类是ChildFirstClassLoader。其关键的loadClassWithoutExceptionHandling方法定义了类加载的顺序。//...ex
Flink window 源码分析4：WindowState 北_鱼 Flink flink 大数据 big data
Flinkwindow源码分析1：窗口整体执行流程Flinkwindow源码分析2：Window的主要组件Flinkwindow源码分析3：WindowOperatorFlinkwindow源码分析4：WindowState本文分析的源码为flink1.18.0_scala2.12版本。reduce、aggregate等函数中怎么使用WindowState？主要考虑reduce、aggregate
Flink实战（七十）：监控（二）搭建flink可视化监控 Pushgateway+ Prometheus + Grafana （windows ）王知无(import_bigdata) Flink系统性学习专栏 flink 大数据
1Flink的配置:在flink配置⽂件flink-conf.yaml中添加：metrics.reporter.promgateway.class:org.apache.flink.metrics.prometheus.PrometheusPushGatewayReportermetrics.reporter.promgateway.host:localhost#promgateway主要是Pus
JDBC时间类型与Java类型、Flink SQL时间类型与Java类型的对应关系哈哈很哈哈 java flink sql
一、JDBC时间类型与Java类型的对应关系JDBC类型Java类型说明TIMESTAMPjava.sql.Timestamp表示日期和时间（含毫秒）DATEjava.sql.Date仅表示日期（不含时间）TIMEjava.sql.Time仅表示时间（不含日期）说明：java.sql.Timestamp继承自java.util.Date，可精确到纳秒（实际常用毫秒）。java.sql.Date和j
Flink Oracle CDC logminer ogg 对比， PDB logminer CDC 测试
维度FlinkCDC（主库）FlinkCDC（备库）Flinkconnector（Kafka）ADG(ActiveDataGuard)同步机制基于LogMiner解析RedoLog需通过OGG同步备库基于LogMiner解析RedoLog需通过OGG捕获日志后写入Kafka物理复制，主备数据块一致架构特点需直连主库独立进程，低侵入性独立进程，低侵入性仅支持查询，无法捕获实时变更数据链路oracle
基于Prometheus的flink性能监控小坑记录 darkness0604 flink 大数据 java 大数据 flink
背景公司内的flink集群跑了挺长一段时间了，一直也没有对其进行一个比较完整的监控，最近打算着手做这件事情，经过网上的调研，目前公司采用的部署模式是per-job模式，最终选用了基于prometheus，把job指标推送到中间网关的pushgateway上面，然后prometheus去抓取pushgateway上面的信息，从而实现对flink做性能监控，最后通过Grafana进行展示。问题在接入过
PushGateway+Prometheus+Grafana构建Flink实时监控站在最高处呐喊的男人! flink flink 大数据 pushgateway prometheus grafana
#组件简介flinkAPP和linuxsystem两部分，是我们要收集指标数据的组件Pushgateway：是一个推送收集和推送数据的组件Node_exporter：数据导出组件Prometheus：系统监控和预警框架Grafana：可视化展示平台#环境搭建注意，如果浏览器访问不到，iptables-IINPUT-ptcp--dport9090-jACCEPT1.0.flink下载安装包https
掌握Apache Flink：实时数据处理与分析实操泓三宝
本文还有配套的精品资源，点击获取简介：ApacheFlink是一个高效的开源流处理框架，专为实时数据处理和分析设计。本文将通过一个具体的代码示例，深入讲解Flink的核心概念如DataStream、FlatMap和ReduceMap，并展示如何将这些概念应用于实际场景。通过解析“wiki-edits”数据流的实例，我们将探讨如何使用Flink的API进行数据转换、聚合和实时分析，包括窗口和触发器的
数据科学与大数据技术专业的核心课程体系及发展路径全解析 YangYang9YangYan 大数据
CDA数据分析师证书含金量高，适应了未来数字化经济和AI发展趋势，难度不高，行业认可度高，对于找工作很有帮助。一、课程体系三维地图二、核心课程能力矩阵课程模块关键技能行业应用场景工具链分布式计算Spark调优用户行为日志分析AWSEMR/Databricks数据挖掘特征工程金融反欺诈模型Scikit-learn实时数据处理Flink窗口计算物联网设备监控Kafka+Flink数据治理元数据管理企业
一文搞懂FLINK框架支持的所有源算子（包含代码实现）每天五分钟玩转人工智能 Flink技术实战 flink 大数据源算子批模式流模式
本文重点源算子是FLINK流式计算框架中的第一个操作符，它用于从外部数据源（如文件、消息队列、套接字等）读取数据，并将数据转化为FLINK的数据流DataStream，然后构建进行转换处理，所以source就是FLINK整个处理程序的输入端。FLINK提供了以下几种常用的源算子1.FileSource：FileSource是FLINK中最常用的源算子之一，它用于从文件中读取数据。FileSourc
基于Flinkcep-1.11.2 动态规则修改实践
1，事先说明这个代码搞出来说白了就是在大佬的代码参考下完成的，之前就一直想搞cep规则动态修改，苦于对cep的源码不熟悉，没法下手。之前有个大佬搞过基于flink-cep1.8版本的动态规则修改。后来有个大佬搞过基于flink-cep1.1.0的。https://mp.weixin.qq.com/s/mh--wQvAWQq2tDPKq0-m8Q我看代码的逻辑是后者更复杂，前者更好理解，后者需要修改
Flink 状态管理设计详解：StateBackend、State、RocksDB和Namespace lifallen Flink flink 大数据数据库 java apache 分布式
为什么需要StateBackend？——职责分离原则我们可以用一个银行的例子来类比：State(如ValueState,ListState)就像是你的银行卡。AbstractKeyedStateBackend就像是银行的整个后台系统（包括总服务器、数据库、风控系统、会计系统等）。你不能直接用一张塑料卡片去操作你的钱，你需要把卡片插入ATM机或交给柜员，由他们背后的银行系统来完成真正的存取款、转账等
flink源码系列：RPC通信 Direction_Wind flink技术原理 flink rpc 大数据
这里写目录标题1.本节课目的2.开始本节内容2.1.RPC概念3.2.大数据组件常见的RPC实现技术3.3.Pekko（Akka）3.3.1.Akka、Pekko基本概念3.3.2.PekkoDemo事例3.3.2.1.PekkoData类3.3.2.2.PekkoRpcReceiverActor类3.3.2.3.PekkoRpcSenderActor类3.3.2.4.Demo类3.4.Flink
【Flink图计算源码解析】开篇：Flink图计算总览 hxcaifly Flink Flink原理和应用
文章目录1.图计算的作用2.本专题的写作目的3.FlinkGelly引擎总览3.1.Gelly的源码结构1.Graph的存储数据结构2.图的类别3.图的验证以及指标4.图的生成器5.Library6.图的迭代计算7.examples案例4.后记1.图计算的作用哲学上说事物之间普遍存在联系的，通常来说可以将事物看作图的顶点，事物间的联系看作图的边，典型的场景：对应于学术界的文献来说，每篇论文可以看作
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
Flink：处理有界流数据的wordcount 小易学编程 flink 大数据
数据源：helloworldhelloflinkhelloscala有界流：packagechapter02importorg.apache.flink.streaming.api.scala._/***ClassName:BoundedStreamWordCount*Package:chapter02*Description:**@Author小易日拱一卒*@Create2025-06-272:
10.jobManager初始化流程
JobManager初始化流程1.找到入口类StandaloneSessionClusterEntrypoint该类位于Flink源码的以下路径中：flink-runtime/src/main/java/org/apache/flink/runtime/entrypoint/StandaloneSessionClusterEntrypoint.java2.查看main方法/**Entrypoint
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
聊聊flink的RpcService go4it
序本文主要研究一下flink的RpcServiceRpcServiceflink-release-1.7.2/flink-runtime/src/main/java/org/apache/flink/runtime/rpc/RpcService.javapublicinterfaceRpcService{StringgetAddress();intgetPort();CompletableFutu
ARTS-第七周梧上擎天
Algorithm一、用链表和二叉树实现Set集合GitHub地址二、散列表散列表就是使用数组下标随机访问时候复杂度为O（1）的特性，当我们按照键值查找元素时，通过散列函数将key转化为下标然后进行访问，当有大量散列冲突时会退化为O（n）的时间复杂度。解决散列冲突的方法：开放寻址法和链表法ReviewFlink动态表概念原文地址流和表为什么可以相互转换呢？我们都知道传统Mysql的主从复制是通过b
如何解决一个flink on yarn集群上已经跑了一个job，再提交第二个job的时候，task报java heap size oom的问题 fzip Flink flink java 大数据
在FlinkonYARN集群中提交第二个Job时出现Task的JavaHeapSizeOOM（内存溢出），核心原因是集群资源不足（第一个Job已占用大量资源，第二个Job分配的内存不够）或Job资源配置不合理（单个Job申请资源过多，或内存参数设置与实际需求不匹配）。解决需从“资源排查”“Job配置优化”“集群资源扩容”三个维度入手，具体步骤如下：一、先排查核心原因：确认资源占用与配置是否匹配1.
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
Flink cdc同步增量数据timestamp字段相差八小时（分析｜解决）不是粘贴复制的！ BUG FIXER 大数据 flink android 大数据
问题我使用flinkcdc同步mysql到mysql遇到了timestamp字段缺少八小时的问题。很少无语，flink,cdc,debezium时区都设置了，没有任何效果！分析问题出现在mysqlbinlog身上！！！因为默认mysql会使用UTC来存储binlog,你可以使用下方的sql验证：mysqlbinlog--base64-output=DECODE-ROWS-v--start-date
如何解决Flink CDC同步时间类型字段8小时时间差的问题，以MySQL为例智海观潮 Flink flink flink cdc 大数据实时数据同步
在使用FlinkCDC进行数据同步时，默认情况下经常会遇到时间类型的字段与实际值相差8个小时的问题。本文以MySQL为例提供解决方案，其他数据源也可以参考这类实现。原文链接：https://mp.weixin.qq.com/s/_f41ES8UquM-kj3Ie8JU_g1.设置server时区比如MySQL服务的时区为UTC时间，可以参考以下code设置时区。MySqlSourcemySqlSo
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多