bxlj_jcj

Flink DataStream API详解（一）

一、引言

Flink 的 DataStream API，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStream API 都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索 Flink DataStream API 。

二、DataStream 编程基础搭建

在开始使用 Flink DataStream API 进行编程之前，我们需要先搭建好基本的编程框架。一个典型的 Flink 程序主要包含以下几个关键步骤：

（1）获取执行环境：执行环境是 Flink 程序与运行时系统之间的桥梁，它负责管理任务的执行、资源的分配以及与外部系统的交互。在 Flink 中，获取执行环境有多种方式：

getExecutionEnvironment：这是最常用的方式，它会根据当前的运行上下文自动判断并返回合适的执行环境。如果程序在本地独立运行，它会返回一个本地执行环境，方便我们在开发和调试阶段快速验证代码逻辑；如果程序被打包成 Jar 包并提交到集群执行，它则会返回集群执行环境，实现大规模数据的分布式处理。例如：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

createLocalEnvironment：该方法用于显式创建一个本地执行环境，我们还可以通过传入参数指定默认的并行度。若不传入参数，默认并行度将设置为本地机器的 CPU 核心数。比如，我们希望设置并行度为 4，可以这样写：

StreamExecutionEnvironment localEnv = StreamExecutionEnvironment.createLocalEnvironment(4);

createRemoteEnvironment：当我们需要将程序提交到远程 Flink 集群上运行时，就会用到这个方法。它要求我们指定集群中 JobManager 的主机名和端口号，并指定要在集群中运行的 Jar 包。示例如下：

StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment.createRemoteEnvironment(
        "host", // JobManager主机名
        1234,   // JobManager进程端口号
        "path/to/jarFile.jar" // 提交给JobManager的JAR包
);

（2）载入数据（获取数据源 - Source）：从各种数据源读取数据，这些数据源可以是文件、Kafka 消息队列、Socket 套接字，甚至是内存中的集合等。不同的数据源适用于不同的场景，例如文件数据源适合处理历史数据，Kafka 数据源常用于实时数据的接入，Socket 数据源则可用于简单的实时数据模拟和测试。后续我们会详细介绍各种数据源的使用方法。

（3）对数据进行处理 / 转换（Transformation）：通过一系列的转换算子对输入的数据流进行处理和转换，将其变成我们期望的格式和内容。这是 Flink DataStream API 的核心部分，包含了丰富的算子，如 map、flatMap、filter、keyBy、window 等，每个算子都有其独特的功能和应用场景。

（4）设置数据输出方式（输出到 Sink）：定义将处理后的数据发送到哪里，常见的输出方式有写入文件、输出到 Kafka、打印到控制台等。我们可以根据实际需求选择合适的 Sink，将处理结果持久化存储或发送给其他系统进行进一步处理。

（5）启动程序，开始执行：调用执行环境的 execute () 方法，触发程序的执行。此时，Flink 会将我们定义的任务调度到集群中的各个节点上并行执行，对数据流进行实时处理。例如：

env.execute("Job Name");

在实际应用中，我们需要根据具体的业务需求和数据特点，灵活选择执行环境和配置参数，以确保 Flink 程序能够高效、稳定地运行。

三、数据源

在 Flink DataStream 编程中，数据源（Source）是数据流入的起点，不同的数据源为我们提供了丰富的数据接入方式。接下来，我们将详细介绍几种常见的数据源及其使用方法。

（一）文件数据源

文件数据源是 Flink 中常用的数据输入方式之一，它可以从本地文件系统或分布式文件系统（如 HDFS）中读取数据。在 Flink 中，读取文件非常简单，只需使用readTextFile方法即可。假设我们有一个本地文件data.txt，其中每行存储了一条用户访问记录，记录格式为用户ID,访问时间,访问页面，现在我们要读取这个文件并打印其中的内容，可以使用以下代码：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream dataStream = env.readTextFile("file:///path/to/data.txt");
dataStream.print();
env.execute("Read File Example");

在上述代码中，file:///path/to/data.txt是本地文件的路径。如果要读取分布式文件系统（如 HDFS）中的文件，只需将路径替换为 HDFS 的路径，例如hdfs://namenode:port/path/to/data.txt 。Flink 支持多种文件格式，如文本文件（readTextFile）、CSV 文件（可以借助一些第三方库来处理）、二进制文件（readFile方法结合自定义的FileInputFormat实现）等。对于不同格式的文件，我们需要根据其特点选择合适的读取方法和处理逻辑。例如，对于 CSV 文件，我们可能需要使用专门的 CSV 解析库将每行数据解析成对应的字段。

（二）Kafka 数据源

Kafka 作为一种高吞吐量的分布式消息队列，在实时数据处理中被广泛应用。在 Flink 中，使用 Kafka 作为数据源可以轻松实现实时数据的接入和处理。Kafka 数据源具有以下优势：

高吞吐量：能够快速处理大量的实时数据，满足大规模数据处理的需求。
分布式架构：支持分布式部署，保证数据的可靠性和可扩展性。
消息持久化：数据可以持久化存储在 Kafka 中，防止数据丢失。

下面是一个使用 Flink 从 Kafka 读取数据的示例代码。假设 Kafka 集群地址为localhost:9092，消费者组 ID 为flink-group，要订阅的主题为test-topic，并且数据的序列化方式为字符串：

Properties properties = new Properties();
properties.setProperty("bootstrap.servers", "localhost:9092");
properties.setProperty("group.id", "flink-group");
properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

FlinkKafkaConsumer kafkaConsumer = new FlinkKafkaConsumer<>("test-topic", new SimpleStringSchema(), properties);

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream dataStream = env.addSource(kafkaConsumer);
dataStream.print();
env.execute("Flink Kafka Example");

在上述代码中，我们首先创建了一个Properties对象，用于配置 Kafka 消费者的相关属性，包括 Kafka 集群地址、消费者组 ID 以及键和值的反序列化器。然后，使用FlinkKafkaConsumer创建了一个 Kafka 消费者，指定了要订阅的主题、数据的反序列化方式和消费者配置。最后，将 Kafka 消费者添加到 Flink 的执行环境中，并调用print方法将读取到的数据打印出来。在实际应用中，我们可以根据数据的类型选择合适的反序列化器，例如，如果数据是 JSON 格式，可以使用JsonDeserializationSchema进行反序列化。

（三）Socket 数据源

Socket 数据源允许我们从网络套接字中读取数据，常用于实时数据的模拟和测试。在 Flink 中，使用socketTextStream方法可以方便地从 Socket 读取文本数据。假设我们有一个 Socket 服务运行在localhost:9999，并且数据以换行符分隔，下面是从该 Socket 读取数据并打印的示例代码：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream dataStream = env.socketTextStream("localhost", 9999, "\n");
dataStream.print();
env.execute("Socket Source Example");

在上述代码中，localhost是 Socket 服务的主机名，9999是端口号，\n是数据的分隔符。通过这种方式，Flink 会不断从指定的 Socket 接收数据，并将其作为数据流进行处理。在实际应用中，Socket 数据源可以用于实时采集一些简单的数据流，例如系统的实时日志数据等。我们可以通过编写一个简单的 Socket 发送端程序，将需要处理的数据发送到指定的 Socket 端口，Flink 则实时接收并处理这些数据。

四、常用转换算子深度剖析

在 Flink DataStream API 中，转换算子（Transformation）是对数据流进行处理和转换的核心工具，它们能够根据不同的业务需求，对输入的数据流进行各种灵活的操作。下面我们将详细介绍几种常用的转换算子及其应用场景。

（一）map 算子：数据的简单转换

map 算子是一种非常基础且常用的转换算子，它对输入数据流中的每个元素进行一对一的转换操作。具体来说，map 算子接受一个用户自定义的函数，该函数会对数据流中的每一个元素进行处理，并返回一个新的元素，最终生成一个新的数据流。例如，我们有一个包含整数的数据流DataStream，现在希望将每个整数乘以 2，可以使用 map 算子实现：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream inputStream = env.fromElements(1, 2, 3, 4, 5);
DataStream outputStream = inputStream.map(new MapFunction() {
    @Override
    public Integer map(Integer value) throws Exception {
        return value * 2;
    }
});
outputStream.print();
env.execute("Map Operator Example");

在上述代码中，我们定义了一个MapFunction，它接受一个Integer类型的输入元素，将其乘以 2 后返回一个新的Integer类型元素。map 算子会依次对inputStream中的每个元素应用这个MapFunction，从而得到outputStream 。在实际应用中，map 算子常用于数据清洗和格式转换等场景。比如，在处理用户日志数据时，我们可以使用 map 算子将每行日志字符串解析成一个包含具体字段的 Java 对象，方便后续的处理和分析。假设日志格式为用户ID,用户名,访问时间，我们可以这样实现：

public class UserLog {
    private String userId;
    private String username;
    private long timestamp;

    public UserLog(String userId, String username, long timestamp) {
        this.userId = userId;
        this.username = username;
        this.timestamp = timestamp;
    }

    // 省略getter和setter方法
}

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream logStream = env.socketTextStream("localhost", 9999);
DataStream userLogStream = logStream.map(new MapFunction() {
    @Override
    public UserLog map(String line) throws Exception {
        String[] fields = line.split(",");
        return new UserLog(fields[0], fields[1], Long.parseLong(fields[2]));
    }
});
userLogStream.print();
env.execute("Map for Log Parsing Example");

（二）flatMap 算子：一对多的精彩变换

flatMap 算子与 map 算子类似，但它可以实现一对多的转换，即对输入数据流中的每个元素进行处理后，可以返回零个、一个或多个输出元素。这使得 flatMap 算子在处理一些需要将一个元素拆分成多个元素的场景时非常有用。例如，在经典的 WordCount 案例中，我们需要将文本中的每一行拆分成多个单词，就可以使用 flatMap 算子：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream textStream = env.fromElements("hello flink", "flink is awesome");
DataStream wordStream = textStream.flatMap(new FlatMapFunction() {
    @Override
    public void flatMap(String line, Collector out) throws Exception {
        String[] words = line.split(" ");
        for (String word : words) {
            out.collect(word);
        }
    }
});
wordStream.print();
env.execute("FlatMap for WordCount Example");

在上述代码中，FlatMapFunction接受一个字符串类型的输入元素（即文本行），将其按空格拆分成多个单词，并通过Collector将每个单词输出。这样，textStream中的每一行文本就被拆分成了多个单词，形成了wordStream 。除了文本分词，flatMap 算子还常用于数据拆分和条件过滤等场景。比如，在处理订单数据时，如果一个订单中包含多个商品，我们可以使用 flatMap 算子将每个订单拆分成多个商品记录，以便后续对每个商品进行单独的分析。假设订单数据格式为订单ID,商品1:数量1,商品2:数量2,...，我们可以这样实现：

public class OrderItem {
    private String orderId;
    private String product;
    private int quantity;

    public OrderItem(String orderId, String product, int quantity) {
        this.orderId = orderId;
        this.product = product;
        this.quantity = quantity;
    }

    // 省略getter和setter方法
}

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream orderStream = env.socketTextStream("localhost", 9999);
DataStream orderItemStream = orderStream.flatMap(new FlatMapFunction() {
    @Override
    public void flatMap(String line, Collector out) throws Exception {
        String[] fields = line.split(",");
        String orderId = fields[0];
        for (int i = 1; i < fields.length; i++) {
            String[] productInfo = fields[i].split(":");
            String product = productInfo[0];
            int quantity = Integer.parseInt(productInfo[1]);
            out.collect(new OrderItem(orderId, product, quantity));
        }
    }
});
orderItemStream.print();
env.execute("FlatMap for Order Split Example");

（三）filter 算子：数据筛选大师

filter 算子用于根据指定的条件对数据流中的元素进行筛选，只有满足条件的元素才会被保留，不满足条件的元素将被过滤掉。它接受一个FilterFunction，该函数会对每个元素进行判断，并返回一个布尔值，true表示保留该元素，false表示过滤掉该元素。例如，我们有一个包含整数的数据流，现在希望过滤出其中的偶数，可以使用 filter 算子实现：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream numberStream = env.fromElements(1, 2, 3, 4, 5, 6);
DataStream evenNumberStream = numberStream.filter(new FilterFunction() {
    @Override
    public boolean filter(Integer value) throws Exception {
        return value % 2 == 0;
    }
});
evenNumberStream.print();
env.execute("Filter for Even Numbers Example");

在上述代码中，FilterFunction判断每个整数是否为偶数，如果是则返回true，该元素将被保留在evenNumberStream中；如果不是则返回false，该元素将被过滤掉。filter 算子在实际应用中非常广泛，常用于去除无效数据、提取关键信息等场景。比如，在处理电商订单数据时，我们可以使用 filter 算子过滤掉金额为 0 的订单，或者筛选出特定用户的订单。假设订单数据是一个包含Order对象的数据流，Order对象包含订单金额和用户 ID 等字段，我们可以这样实现：

public class Order {
    private String orderId;
    private double amount;
    private String userId;

    public Order(String orderId, double amount, String userId) {
        this.orderId = orderId;
        this.amount = amount;
        this.userId = userId;
    }

    // 省略getter和setter方法
}

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream orderStream = env.fromCollection(Arrays.asList(
        new Order("1", 100.0, "user1"),
        new Order("2", 0.0, "user2"),
        new Order("3", 200.0, "user1")
));
DataStream validOrderStream = orderStream.filter(new FilterFunction() {
    @Override
    public boolean filter(Order order) throws Exception {
        return order.getAmount() > 0;
    }
});
DataStream user1OrderStream = orderStream.filter(new FilterFunction() {
    @Override
    public boolean filter(Order order) throws Exception {
        return "user1".equals(order.getUserId());
    }
});
validOrderStream.print("Valid Orders");
user1OrderStream.print("User1 Orders");
env.execute("Filter for Order Data Example");

（四）keyBy 算子：数据分区与分组

keyBy 算子是 Flink 中非常重要的一个算子，它根据指定的键（key）对数据流进行逻辑分区，将具有相同键的数据分配到同一个分区中，以便后续进行并行处理和聚合操作。keyBy 算子会将一个DataStream转换成一个KeyedStream，KeyedStream是一种特殊的数据流，它在逻辑上被划分为多个分区，每个分区包含具有相同键的数据。例如，我们有一个包含订单信息的数据流，订单信息包含订单 ID、用户 ID 和订单金额等字段，现在我们希望根据用户 ID 对订单进行分组，以便统计每个用户的订单总金额，可以使用 keyBy 算子实现：

public class Order {
    private String orderId;
    private String userId;
    private double amount;

    public Order(String orderId, String userId, double amount) {
        this.orderId = orderId;
        this.userId = userId;
        this.amount = amount;
    }

    // 省略getter和setter方法
}

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream orderStream = env.fromCollection(Arrays.asList(
        new Order("1", "user1", 100.0),
        new Order("2", "user2", 200.0),
        new Order("3", "user1", 300.0)
));
KeyedStream keyedStream = orderStream.keyBy(new KeySelector() {
    @Override
    public String getKey(Order order) throws Exception {
        return order.getUserId();
    }
});
// 后续可以对keyedStream进行聚合操作，如求和
DataStream> sumStream = keyedStream.sum("amount");
sumStream.print();
env.execute("KeyBy for Order Aggregation Example");

在上述代码中，KeySelector指定了以订单的userId作为键，keyBy算子会根据这个键将orderStream中的订单数据进行分区，具有相同userId的订单会被分配到同一个分区中。然后，我们可以对keyedStream进行聚合操作，这里使用sum算子对每个分区中的订单金额进行求和，得到每个用户的订单总金额。keyBy 算子在实际应用中常用于分组统计、状态管理等场景。比如，在实时监控系统中，我们可以根据设备 ID 对设备的状态数据进行分组，以便实时统计每个设备的在线时长、故障次数等信息。

（五）window 算子：时间与数据的窗口聚合

在流处理中，由于数据是源源不断地到来的，我们通常需要将数据按照一定的时间或数据量进行分组，以便进行聚合计算。窗口操作（window）就是 Flink 提供的一种用于处理无界数据流的重要机制，它可以将连续的数据流切割成有限大小的多个 “存储桶”，每个数据都会被分发到对应的桶中，当达到窗口结束时间时，对每个桶中收集的数据进行计算处理。Flink 提供了多种类型的窗口，常见的有滚动窗口（Tumbling Windows）、滑动窗口（Sliding Windows）和会话窗口（Session Windows）。

滚动窗口（Tumbling Windows）：滚动窗口是一种固定大小、不重叠的窗口。每个窗口包含一段固定时间内的所有数据，当一个窗口结束时，立即开始下一个窗口。例如，我们希望统计每 5 分钟内的用户访问次数，可以使用滚动窗口实现：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
DataStream accessLogStream = env.addSource(new CustomSource());
SingleOutputStreamOperator countStream = accessLogStream
       .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor(Time.seconds(10)) {
            @Override
            public long extractTimestamp(AccessLog element) {
                return element.getTimestamp();
            }
        })
       .keyBy(new KeySelector() {
            @Override
            public String getKey(AccessLog log) throws Exception {
                return log.getUserId();
            }
        })
       .timeWindow(Time.minutes(5))
       .count();
countStream.print();
env.execute("Tumbling Window Example");

在上述代码中，timeWindow(Time.minutes(5))表示定义一个大小为 5 分钟的滚动窗口，count()表示对每个窗口内的数据进行计数，统计每个用户每 5 分钟内的访问次数。

滑动窗口（Sliding Windows）：滑动窗口是一种固定大小、可以重叠的窗口。每个窗口包含一段固定时间内的所有数据，窗口的滑动步长可以小于窗口大小，因此一个事件可以属于多个窗口。例如，我们希望每 2 分钟统计一次最近 5 分钟内的用户访问次数，可以使用滑动窗口实现：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
DataStream accessLogStream = env.addSource(new CustomSource());
SingleOutputStreamOperator countStream = accessLogStream
       .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor(Time.seconds(10)) {
            @Override
            public long extractTimestamp(AccessLog element) {
                return element.getTimestamp();
            }
        })
       .keyBy(new KeySelector() {
            @Override
            public String getKey(AccessLog log) throws Exception {
                return log.getUserId();
            }
        })
       .timeWindow(Time.minutes(5), Time.minutes(2))
       .count();
countStream.print();
env.execute("Sliding Window Example");

在上述代码中，timeWindow(Time.minutes(5), Time.minutes(2))表示定义一个大小为 5 分钟、滑动步长为 2 分钟的滑动窗口，每 2 分钟就会计算一次最近 5 分钟内每个用户的访问次数。

会话窗口（Session Windows）：会话窗口是一种根据活动间隙划分的窗口。当一段时间内没有数据到达时，会话窗口会关闭。例如，我们希望根据用户的会话行为统计每个会话内的操作次数，可以使用会话窗口实现：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
DataStream userActionStream = env.addSource(new CustomSource());
SingleOutputStreamOperator countStream = userActionStream
       .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor(Time.seconds(10)) {
            @Override
            public long extractTimestamp(UserAction element) {
                return element.getTimestamp();
            }
        })
       .keyBy(new KeySelector() {
            @Override
            public String getKey(UserAction action) throws Exception {
                return action.getUserId();
            }
        })
       .window(SessionWindows.withGap(Time.minutes(10)))
       .count();
countStream.print();
env.execute("Session Window Example");

在上述代码中，SessionWindows.withGap(Time.minutes(10))表示定义一个会话窗口，当用户操作之间的时间间隔超过 10 分钟时，认为一个会话结束，然后统计每个会话内每个用户的操作次数。

五、案例展示

为了更直观地理解 Flink DataStream API 的强大功能和实际应用，我们以电商实时数据处理场景为例，展示如何从 Kafka 读取数据，使用各种算子进行数据清洗、统计和分析，最后输出结果。

假设我们的 Kafka 中存储了电商平台的订单数据，数据格式为 JSON 字符串，每条记录包含订单 ID、用户 ID、商品 ID、订单金额、下单时间等字段。我们的需求如下：

数据清洗：过滤掉订单金额为 0 或负数的无效订单数据。
实时统计：按用户 ID 分组，统计每个用户的订单总金额和订单数量，每 5 分钟统计一次。
热门商品分析：统计每 10 分钟内销量最高的前 5 个商品。

下面是实现上述需求的完整代码：

import org.apache.flink.api.common.functions.AggregateFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.util.Collector;
import org.json.JSONObject;

import java.util.*;
import java.util.Properties;

public class EcommerceDataAnalysis {
    public static void main(String[] args) throws Exception {
        // 获取执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 配置Kafka消费者
        Properties properties = new Properties();
        properties.setProperty("bootstrap.servers", "localhost:9092");
        properties.setProperty("group.id", "ecommerce-group");
        properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        // 从Kafka读取数据
        FlinkKafkaConsumer kafkaConsumer = new FlinkKafkaConsumer<>("ecommerce-orders", new SimpleStringSchema(), properties);
        DataStream orderStream = env.addSource(kafkaConsumer);

        // 数据清洗：过滤掉订单金额为0或负数的无效订单
        SingleOutputStreamOperator cleanOrderStream = orderStream.map(jsonStr -> new JSONObject(jsonStr))
               .filter(jsonObject -> {
                    double amount = jsonObject.getDouble("amount");
                    return amount > 0;
                });

        // 实时统计：按用户ID分组，统计每个用户的订单总金额和订单数量，每5分钟统计一次
        KeyedStream keyedByUserStream = cleanOrderStream.keyBy(jsonObject -> jsonObject.getString("userId"));
        SingleOutputStreamOperator>> userStatsStream = keyedByUserStream
               .window(TumblingProcessingTimeWindows.of(Time.minutes(5)))
               .aggregate(new UserStatsAggregate(), new UserStatsWindowFunction());

        // 热门商品分析：统计每10分钟内销量最高的前5个商品
        KeyedStream keyedByProductStream = cleanOrderStream.keyBy(jsonObject -> jsonObject.getString("productId"));
        SingleOutputStreamOperator> productCountStream = keyedByProductStream
               .window(TumblingProcessingTimeWindows.of(Time.minutes(10)))
               .aggregate(new ProductCountAggregate(), new ProductCountWindowFunction());

        SingleOutputStreamOperator>> topProductStream = productCountStream
               .keyBy(tuple -> tuple.f1)
               .process(new TopNProductFunction(5));

        // 打印结果
        userStatsStream.print("User Stats: ");
        topProductStream.print("Top Products: ");

        // 执行任务
        env.execute("Ecommerce Data Analysis");
    }

    // 用户统计聚合函数
    public static class UserStatsAggregate implements AggregateFunction, Tuple2> {
        @Override
        public Tuple2 createAccumulator() {
            return Tuple2.of(0.0, 0L);
        }

        @Override
        public Tuple2 add(JSONObject value, Tuple2 accumulator) {
            double amount = value.getDouble("amount");
            return Tuple2.of(accumulator.f0 + amount, accumulator.f1 + 1);
        }

        @Override
        public Tuple2 getResult(Tuple2 accumulator) {
            return accumulator;
        }

        @Override
        public Tuple2 merge(Tuple2 a, Tuple2 b) {
            return Tuple2.of(a.f0 + b.f0, a.f1 + b.f1);
        }
    }

    // 用户统计窗口函数
    public static class UserStatsWindowFunction extends ProcessWindowFunction, Tuple2>, String, TimeWindow> {
        @Override
        public void process(String userId, Context context, Iterable> elements, Collector>> out) throws Exception {
            Tuple2 stats = elements.iterator().next();
            out.collect(Tuple2.of(userId, stats));
        }
    }

    // 商品销量聚合函数
    public static class ProductCountAggregate implements AggregateFunction {
        @Override
        public Long createAccumulator() {
            return 0L;
        }

        @Override
        public Long add(JSONObject value, Long accumulator) {
            return accumulator + 1;
        }

        @Override
        public Long getResult(Long accumulator) {
            return accumulator;
        }

        @Override
        public Long merge(Long a, Long b) {
            return a + b;
        }
    }

    // 商品销量窗口函数
    public static class ProductCountWindowFunction extends ProcessWindowFunction, String, TimeWindow> {
        @Override
        public void process(String productId, Context context, Iterable elements, Collector> out) throws Exception {
            Long count = elements.iterator().next();
            out.collect(Tuple2.of(productId, count));
        }
    }

    // 热门商品TopN处理函数
    public static class TopNProductFunction extends KeyedProcessFunction, List>> {
        private int topN;

        public TopNProductFunction(int topN) {
            this.topN = topN;
        }

        @Override
        public void processElement(Tuple2 value, Context context, Collector>> out) throws Exception {
            // 使用PriorityQueue来维护TopN
            PriorityQueue> pq = new PriorityQueue<>(Comparator.comparingLong(t -> t.f1));
            pq.add(value);

            if (pq.size() > topN) {
                pq.poll();
            }

            // 将结果收集到List中
            List> topProducts = new ArrayList<>(pq);
            Collections.sort(topProducts, Comparator.comparingLong(t -> -t.f1));

            out.collect(topProducts);
        }
    }
}

代码说明：

获取执行环境：通过StreamExecutionEnvironment.getExecutionEnvironment()获取 Flink 的执行环境。
配置 Kafka 消费者：设置 Kafka 集群地址、消费者组 ID 以及键和值的反序列化器。
从 Kafka 读取数据：使用FlinkKafkaConsumer从指定的 Kafka 主题ecommerce-orders中读取数据。
数据清洗：使用map算子将 JSON 字符串转换为JSONObject，然后使用filter算子过滤掉订单金额为 0 或负数的无效订单。
实时统计：使用keyBy算子按用户 ID 分组，然后使用window算子定义一个 5 分钟的滚动窗口。在窗口内，使用aggregate算子进行聚合操作，自定义的UserStatsAggregate函数用于计算每个用户的订单总金额和订单数量，UserStatsWindowFunction用于将结果输出。
热门商品分析：使用keyBy算子按商品 ID 分组，然后使用window算子定义一个 10 分钟的滚动窗口。在窗口内，使用aggregate算子进行聚合操作，自定义的ProductCountAggregate函数用于统计每个商品的销量，ProductCountWindowFunction用于将结果输出。最后，使用TopNProductFunction函数统计每 10 分钟内销量最高的前 5 个商品。
打印结果：使用print算子将处理结果打印到控制台。
执行任务：调用env.execute("Ecommerce Data Analysis")启动任务执行。

当程序运行后，控制台会实时输出每个用户的订单总金额和订单数量，以及每 10 分钟内销量最高的前 5 个商品。通过这个案例，我们可以看到 Flink DataStream API 能够高效地处理实时数据流，实现复杂的业务需求。在实际应用中，我们可以根据具体需求对代码进行进一步优化和扩展，例如将结果输出到其他存储系统（如 MySQL、HBase 等），或者增加更多的统计指标和分析逻辑。

六、总结

在大数据实时处理的领域中，Flink DataStream API 展现出了强大的功能和卓越的性能。通过本文的学习，我们深入了解了 Flink DataStream API 的编程基础，掌握了从不同数据源获取数据的方法，包括文件、Kafka 和 Socket 数据源。同时，我们详细剖析了常用的转换算子，如 map、flatMap、filter、keyBy 和 window 等，这些算子为我们处理和分析数据流提供了丰富的手段。

在实际应用中，Flink DataStream API 已经在众多领域得到了广泛应用，如电商实时数据分析、金融风险监测、物联网设备数据处理等。通过实时处理和分析海量数据，企业能够及时做出决策，提升业务竞争力。例如，在电商领域，通过实时分析用户的浏览、购买行为数据，企业可以实现精准推荐，提高用户购买转化率；在金融领域，实时监测交易数据可以及时发现异常交易，防范金融风险。

你可能感兴趣的:(Flink,flink,大数据)

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
Flink Checkpoint 状态后端详解：类型、特性对比及场景化选型指南
ApacheFlink提供了多种状态后端以支持Checkpoint机制下的状态持久化，确保在故障发生时能够快速恢复状态并实现Exactly-Once处理语义。以下是几种常见状态后端的详细介绍及其对比情况，以及不同场景下的选型建议：1.MemoryStateBackend（内存状态后端）描述：MemoryStateBackend将状态数据存储在TaskManager的JVM堆内存中，并在Checkp
Flink 自定义类加载器和子优先类加载策略 lifallen Flink 数据库数据结构大数据 flink java 分布式
子类优先加载Flink默认采用了子优先（Child-First）的类加载策略来加载用户代码，以解决潜在的依赖冲突问题。我们可以通过源码来证明这一点。ChildFirstClassLoader的实现Flink中负责实现“子优先”加载逻辑的核心类是ChildFirstClassLoader。其关键的loadClassWithoutExceptionHandling方法定义了类加载的顺序。//...ex
Flink window 源码分析4：WindowState 北_鱼 Flink flink 大数据 big data
Flinkwindow源码分析1：窗口整体执行流程Flinkwindow源码分析2：Window的主要组件Flinkwindow源码分析3：WindowOperatorFlinkwindow源码分析4：WindowState本文分析的源码为flink1.18.0_scala2.12版本。reduce、aggregate等函数中怎么使用WindowState？主要考虑reduce、aggregate
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
好用的酒店预订软件有哪些？酒店预订哪个软件便宜好项目高省
哪个酒店预订App更省钱？想要预订酒店却担心价格过高？试试这些超值的酒店预订App吧！【美团】：专注于三四线城市，性价比超高！经济型酒店最受欢迎，但用户忠诚度稍低。【飞猪】：阿里旗下平台，依托强大系统和大数据。受年轻人喜爱，但产品同质化较突出，需注意商家管控和用户纠纷解决。要领取优惠券，我们需要使用APP或者登录官方网站。在进入APP后，我们可以通过以下几种途径来获取内部优惠券。一、直返直返的口号
大数据量查询计算引发数据库CPU告警问题复盘懒虫虫~ 业务解决方案大表治理
大数据量查询计算引发数据库CPU告警问题复盘一、背景二、根因分析三、解决方案方案1：多线程+缓存方案2：利用中间表+缓存四、总结一、背景2025年7月份某天，CDP系统每天不定时推送我们的Portal服务，生产环境运营看板会展示统计数据，发现接口响应缓慢，随之而来数据库监控告警，发现数据库CPU达到了80%。由于表数据量大，计算统计复杂，多线程使用不当，导致数据库服务器爆表。其中A表数据量达到1亿
Elasticsearch－索引原理 ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
结婚纪念日是婚礼当天还是领证那天？？壹刻所闻
领证日子和结婚日子大部分都是分开的，所以很多新人弄清楚结婚纪念日是需要过领证那天还是举办婚礼那天。两个日子都会有人过，不过根据大数据显示，大部分的人选择的是举办婚礼的日子。一、结婚纪念日按领证还是婚礼1、领证结婚证纪念日是按领结婚证的那一天算的。只有领了结婚证，两人才是合法夫妻关系，才能受法律保护。而举办婚礼只不过是告诉双方的亲友两人结婚了，邀请双方的亲友一起吃了顿饭罢了，不具备法律效应。如果只是
Flink实战（七十）：监控（二）搭建flink可视化监控 Pushgateway+ Prometheus + Grafana （windows ）王知无(import_bigdata) Flink系统性学习专栏 flink 大数据
1Flink的配置:在flink配置⽂件flink-conf.yaml中添加：metrics.reporter.promgateway.class:org.apache.flink.metrics.prometheus.PrometheusPushGatewayReportermetrics.reporter.promgateway.host:localhost#promgateway主要是Pus
JDBC时间类型与Java类型、Flink SQL时间类型与Java类型的对应关系哈哈很哈哈 java flink sql
一、JDBC时间类型与Java类型的对应关系JDBC类型Java类型说明TIMESTAMPjava.sql.Timestamp表示日期和时间（含毫秒）DATEjava.sql.Date仅表示日期（不含时间）TIMEjava.sql.Time仅表示时间（不含日期）说明：java.sql.Timestamp继承自java.util.Date，可精确到纳秒（实际常用毫秒）。java.sql.Date和j
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

Flink DataStream API详解（一）

一、引言

二、DataStream 编程基础搭建​

三、数据源

（一）文件数据源​

（二）Kafka 数据源​

（三）Socket 数据源​

四、常用转换算子深度剖析​

（一）map 算子：数据的简单转换​

（二）flatMap 算子：一对多的精彩变换​

（三）filter 算子：数据筛选大师​

（四）keyBy 算子：数据分区与分组​

（五）window 算子：时间与数据的窗口聚合​

五、案例展示​