goTsHgo

Flink的 RecordWriter 数据通道详解

本文从基础原理到代码层面逐步解释 Flink 的RecordWriter 数据通道，尽量让初学者也能理解。

1. 什么是 `RecordWriter`？

通俗理解

RecordWriter 是 Flink 中负责将数据从一个任务（Task）发送到下游任务的组件。想象一下，Flink 是一个巨大的工厂，数据像流水线上的包裹，RecordWriter 就是负责把包裹打包、贴上地址标签，然后通过“传送带”送到下一个站点的工人。

在 Flink 的分布式计算中，数据处理分为多个并行任务（Task），每个任务可能需要把自己的处理结果发送给其他任务（比如下游的计算节点）。RecordWriter 的作用是：

序列化数据：把数据变成可以在网络上传输的字节流。
分配数据：决定数据应该发送到哪个下游任务（基于分区策略，比如 keyBy）。
发送数据：通过底层的网络通道（比如 Netty）把数据传出去。

官方定义

根据 Flink 官方文档，RecordWriter 是 Flink 数据流（DataStream）处理中用于将记录（Record）写入到输出通道的核心组件。它是 Flink 运行时（Runtime）层的一部分，位于任务的输出端，负责将上游算子处理后的数据发送到下游算子的输入端。

2. `RecordWriter` 的工作原理（宏观视角）

为了让非专业人士理解，我们先从高层次看 RecordWriter 的工作流程，之后再深入到代码和底层细节。

工作流程（类比快递分拣）

接收包裹（数据记录）：RecordWriter 从上游算子（比如 Map 或 Filter）接收到一条数据记录（Record），就像快递员拿到一个包裹。
贴标签（分区决策）：根据用户定义的分区策略（比如 keyBy 或 broadcast），RecordWriter 决定这个包裹要送到哪个下游站点（下游子任务）。
打包（序列化）：包裹不能直接扔到传送带上，RecordWriter 会把数据“打包”成字节流（序列化），方便在网络上传输。
选择传送带（通道选择）：Flink 的任务之间通过逻辑通道（Channel）连接，RecordWriter 选择合适的通道（对应下游的子任务）。
送上传送带（发送数据）：RecordWriter 把打包好的数据通过底层的网络栈（Netty）发送到下游任务。

核心问题

如何确保数据高效传输？ Flink 使用缓冲区（Buffer）管理数据，避免频繁的网络调用。
如何保证数据顺序或分区正确？ 依赖分区器（Partitioner）和通道选择器（ChannelSelector）。
如何处理分布式环境中的复杂性？ Flink 的运行时通过 ResultPartition 和 RecordWriter 抽象化网络通信。

3. 深入 `RecordWriter` 的源码实现

现在我们结合 Flink 源码（基于 1.17 版本），从底层逐步分析 RecordWriter 的实现。我会用注释和伪代码的方式解释关键部分，并尽量用类比让逻辑清晰。

3.1 `RecordWriter` 的类结构

RecordWriter 的核心代码位于 org.apache.flink.runtime.io.network.api.writer 包中。主要类是 RecordWriter，它是一个抽象类，实际使用的是其子类，比如 RecordWriterDelegate 或 ChannelSelectorRecordWriter。

public abstract class RecordWriter {
    protected final ResultPartitionWriter partitionWriter; // 输出分区
    protected final int numberOfChannels; // 下游通道数量
    protected final Random random; // 用于随机分区

    protected RecordWriter(ResultPartitionWriter writer) {
        this.partitionWriter = writer;
        this.numberOfChannels = writer.getNumberOfSubpartitions();
        this.random = new Random();
    }

    // 核心方法：发送一条记录
    public abstract void emit(T record) throws IOException, InterruptedException;
}

ResultPartitionWriter：RecordWriter 依赖的分区写入器，负责管理输出缓冲区和实际的网络发送。
numberOfChannels：下游子任务的数量，决定了数据可以发送到多少个通道。
emit：核心方法，负责将一条记录发送出去。

3.2 数据发送的核心流程（emit 方法）

emit 方法是 RecordWriter 的核心入口，我们以 ChannelSelectorRecordWriter（支持自定义分区策略的实现）为例，逐步分析其实现。

源码分析（简化和注释）

以下是 ChannelSelectorRecordWriter 的 emit 方法的核心逻辑（简化版，带详细注释）：

public class ChannelSelectorRecordWriter extends RecordWriter {
    private final ChannelSelector channelSelector; // 通道选择器（决定分区）
    private final SerializationDelegate serializationDelegate; // 序列化代理

    public ChannelSelectorRecordWriter(
            ResultPartitionWriter writer,
            ChannelSelector channelSelector,
            SerializationDelegate serializationDelegate) {
        super(writer);
        this.channelSelector = channelSelector;
        this.serializationDelegate = serializationDelegate;
    }

    @Override
    public void emit(T record) throws IOException, InterruptedException {
        // 1. 设置待序列化的记录
        serializationDelegate.setInstance(record);

        // 2. 使用通道选择器决定目标通道
        int channelIndex = channelSelector.selectChannel(record);

        // 3. 将记录写入目标通道的缓冲区
        partitionWriter.emitRecord(
            serializationDelegate.getSerializedData(), // 序列化后的数据
            channelIndex // 目标通道索引
        );
    }
}

步骤拆解与类比

设置记录（serializationDelegate.setInstance）：
- 类比：快递员拿到包裹，先登记包裹内容。
- 原理：serializationDelegate 是一个序列化代理，负责将用户的数据（比如 Java 对象）变成字节流。Flink 使用 SerializationDelegate 包装用户记录，延迟实际序列化操作，以提高性能。
- 源码细节：serializationDelegate.setInstance(record) 只是简单地将记录存储到代理对象中，实际序列化发生在后续的 getSerializedData 调用时。
选择通道（channelSelector.selectChannel）：
- 类比：快递员根据包裹上的地址标签，决定送到哪个分拣中心。
- 原理：ChannelSelector 是 Flink 提供的分区逻辑接口，用户可以通过 keyBy、broadcast 等算子自定义分区策略。selectChannel 方法返回一个整数（channelIndex），表示数据应该发送到哪个下游子任务。
- 常见实现：
  - KeyGroupStreamPartitioner：基于 Key 的哈希分区（keyBy）。
  - BroadcastPartitioner：将数据广播到所有下游子任务。
  - ForwardPartitioner：直接发送到对应的下游任务（一对一）。
- 推导：
  - 假设用户定义了 keyBy(x -> x.getId())，ChannelSelector 会提取记录的 id 字段，计算哈希值（比如 id.hashCode()），然后通过取模（hash % numberOfChannels）决定目标通道。
  - 公式：channelIndex=hash(key)mod numberOfChannels
  - 这确保相同 key 的记录总是发送到同一个下游任务，满足 keyBy 的语义。
写入缓冲区（partitionWriter.emitRecord）：
- 类比：快递员把包裹装进集装箱（缓冲区），等待卡车运走。
- 原理：ResultPartitionWriter 是 Flink 运行时中管理输出分区的组件。emitRecord 方法将序列化后的数据写入目标通道的缓冲区（Buffer）。Flink 使用内存池（MemoryPool）管理缓冲区，避免频繁分配内存。
- 源码细节：
```
public void emitRecord(BufferBuilder bufferBuilder, int targetSubpartition)
        throws IOException, InterruptedException {
    // 将序列化数据写入 BufferBuilder
    BufferConsumer bufferConsumer = bufferBuilder.createBufferConsumer();
    // 添加到目标子分区的队列
    addBufferConsumer(bufferConsumer, targetSubpartition);
}
```
  - BufferBuilder：用于构建缓冲区，负责将数据写入内存。
  - BufferConsumer：表示一个可消费的缓冲区，供下游任务读取。
  - addBufferConsumer：将缓冲区加入目标子分区的队列，等待网络层发送。

3.3 序列化与缓冲区管理

序列化和缓冲区是 RecordWriter 性能的关键。

序列化：

Flink 使用 TypeSerializer（用户定义或自动推导）将数据对象转为字节流。
类比：把包裹的内容拍成照片（字节流），方便通过网络传输。

源码：SerializationDelegate.getSerializedData 调用 TypeSerializer.serialize：

public class SerializationDelegate {
    private T instance;
    private final TypeSerializer serializer;

    public StreamElement getSerializedData() throws IOException {
        // 使用序列化器将 instance 转为字节流
        return serializer.serialize(instance);
    }
}

缓冲区管理：
- Flink 的缓冲区基于 NetworkBufferPool，每个缓冲区是一个固定大小的内存块（默认 32KB）。
- 类比：快递员把多个小包裹装进一个大集装箱，避免频繁调用卡车。
- BufferBuilder 动态分配缓冲区，当缓冲区满时，会触发 BufferConsumer 的创建，并交给 ResultPartitionWriter。

3.4 网络传输

底层实现：RecordWriter 不直接处理网络传输，而是通过 ResultPartitionWriter 将缓冲区交给 Flink 的网络栈（基于 Netty）。
类比：集装箱装满后，卡车（Netty）把数据送到下游站点。
原理：
- ResultPartitionWriter 将缓冲区写入 PipelinableSubpartition 的队列。
- Flink 的网络层定期检查队列，使用 Netty 的 Channel 将数据发送到下游 TaskManager。
- Netty 使用 TCP 协议，确保数据可靠传输。

4. 完整步骤总结（带推导）

为了让初学者彻底理解，我将 RecordWriter 的工作流程总结为以下步骤，并为每一步提供通俗解释和公式推导（如果适用）。

接收数据记录：
- 描述：上游算子调用 RecordWriter.emit(record)，传入一条数据。
- 类比：快递员收到一个包裹。
- 推导：无复杂计算，只是将 record 传递给 serializationDelegate。
选择目标通道：
- 描述：ChannelSelector.selectChannel(record) 返回目标通道索引。
- 类比：快递员看包裹地址，决定送到哪个分拣中心。
- 推导：
  - 对于 keyBy 分区：
    - 提取 key：key=keySelector(record)
    - 计算哈希：hash=key.hashCode()
    - 选择通道：channelIndex=hashmod numberOfChannels
  - 对于广播分区：返回所有通道索引。
  - 公式：channelIndex=f(record,numberOfChannels)
序列化数据：
- 描述：serializationDelegate.getSerializedData() 将记录转为字节流。
- 类比：把包裹内容压缩成数字信号。
- 推导：序列化过程依赖 TypeSerializer，复杂度为 O(size of record)。
写入缓冲区：
- 描述：partitionWriter.emitRecord 将字节流写入目标通道的缓冲区。
- 类比：把包裹装进集装箱。
- 推导：
  - 缓冲区大小固定（默认 32KB）。
  - 如果缓冲区满，触发 BufferBuilder.finish()，创建一个新的 BufferConsumer。
  - 公式：bufferSize≤maxBufferSize
发送数据：
- 描述：缓冲区通过 Netty 传输到下游任务。
- 类比：卡车把集装箱运到下一个站点。
- 推导：网络传输的吞吐量取决于 Netty 的配置（线程数、TCP 参数等）。

5. 非专业人士的通俗总结

如果你完全不了解编程或分布式系统，可以把 RecordWriter 想象成一个智能快递员：

任务：把包裹（数据）从一个工厂（任务）送到正确的下游工厂。
步骤：
1. 拿到包裹，检查地址（分区策略）。
2. 把包裹压缩打包（序列化）。
3. 装进集装箱（缓冲区）。
4. 选择正确的传送带（通道）。
5. 交给卡车（网络）运走。
聪明之处：
- 它会根据包裹的类型（key）确保送到正确的下游工厂。
- 它会攒够一车包裹再送（缓冲区），避免浪费时间。
- 它还能同时处理很多包裹（并行处理）。

6. 常见问题解答（Q&A）

Q1：`RecordWriter` 如何保证数据不丢失？

答：Flink 的 RecordWriter 通过缓冲区和 Netty 的可靠传输（TCP）确保数据不丢失。如果下游任务失败，Flink 的检查点（Checkpoint）机制会回滚并重试。

Q2：为什么需要序列化？

答：序列化把复杂的数据对象（比如 Java 类）变成字节流，方便通过网络传输。就像把一本书的内容拍成照片，方便快递寄出。

Q3：`ChannelSelector` 怎么决定分区的？

答：ChannelSelector 根据用户定义的逻辑（比如 keyBy 的 key）计算目标通道。对于 keyBy，它用哈希函数确保相同 key 的数据总是送到同一个下游任务。

7. 结合官方文档的补充

根据 Flink 官方文档（https://flink.apache.org/）：

RecordWriter 是 Flink 运行时网络栈的一部分，位于 ResultPartition 和下游 InputGate 之间。
它支持多种分区策略（StreamPartitioner），用户可以通过 DataStream API 灵活配置。
Flink 的网络传输基于高效的缓冲区管理和 Netty 框架，RecordWriter 是这一流程的起点。

文档中还提到，RecordWriter 的设计目标是：

高吞吐量：通过缓冲区批量发送数据。
低延迟：优化序列化和通道选择逻辑。
灵活性：支持用户自定义分区策略。

8. 总结

RecordWriter 是 Flink 数据流处理中不可或缺的组件，负责将数据高效、正确地发送到下游任务。通过序列化、分区选择、缓冲区管理和网络传输，它实现了分布式环境下数据流的可靠传递。

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
Flink Checkpoint 状态后端详解：类型、特性对比及场景化选型指南
ApacheFlink提供了多种状态后端以支持Checkpoint机制下的状态持久化，确保在故障发生时能够快速恢复状态并实现Exactly-Once处理语义。以下是几种常见状态后端的详细介绍及其对比情况，以及不同场景下的选型建议：1.MemoryStateBackend（内存状态后端）描述：MemoryStateBackend将状态数据存储在TaskManager的JVM堆内存中，并在Checkp
Flink 自定义类加载器和子优先类加载策略 lifallen Flink 数据库数据结构大数据 flink java 分布式
子类优先加载Flink默认采用了子优先（Child-First）的类加载策略来加载用户代码，以解决潜在的依赖冲突问题。我们可以通过源码来证明这一点。ChildFirstClassLoader的实现Flink中负责实现“子优先”加载逻辑的核心类是ChildFirstClassLoader。其关键的loadClassWithoutExceptionHandling方法定义了类加载的顺序。//...ex
Flink window 源码分析4：WindowState 北_鱼 Flink flink 大数据 big data
Flinkwindow源码分析1：窗口整体执行流程Flinkwindow源码分析2：Window的主要组件Flinkwindow源码分析3：WindowOperatorFlinkwindow源码分析4：WindowState本文分析的源码为flink1.18.0_scala2.12版本。reduce、aggregate等函数中怎么使用WindowState？主要考虑reduce、aggregate
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
好用的酒店预订软件有哪些？酒店预订哪个软件便宜好项目高省
哪个酒店预订App更省钱？想要预订酒店却担心价格过高？试试这些超值的酒店预订App吧！【美团】：专注于三四线城市，性价比超高！经济型酒店最受欢迎，但用户忠诚度稍低。【飞猪】：阿里旗下平台，依托强大系统和大数据。受年轻人喜爱，但产品同质化较突出，需注意商家管控和用户纠纷解决。要领取优惠券，我们需要使用APP或者登录官方网站。在进入APP后，我们可以通过以下几种途径来获取内部优惠券。一、直返直返的口号
大数据量查询计算引发数据库CPU告警问题复盘懒虫虫~ 业务解决方案大表治理
大数据量查询计算引发数据库CPU告警问题复盘一、背景二、根因分析三、解决方案方案1：多线程+缓存方案2：利用中间表+缓存四、总结一、背景2025年7月份某天，CDP系统每天不定时推送我们的Portal服务，生产环境运营看板会展示统计数据，发现接口响应缓慢，随之而来数据库监控告警，发现数据库CPU达到了80%。由于表数据量大，计算统计复杂，多线程使用不当，导致数据库服务器爆表。其中A表数据量达到1亿
Elasticsearch－索引原理 ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
结婚纪念日是婚礼当天还是领证那天？？壹刻所闻
领证日子和结婚日子大部分都是分开的，所以很多新人弄清楚结婚纪念日是需要过领证那天还是举办婚礼那天。两个日子都会有人过，不过根据大数据显示，大部分的人选择的是举办婚礼的日子。一、结婚纪念日按领证还是婚礼1、领证结婚证纪念日是按领结婚证的那一天算的。只有领了结婚证，两人才是合法夫妻关系，才能受法律保护。而举办婚礼只不过是告诉双方的亲友两人结婚了，邀请双方的亲友一起吃了顿饭罢了，不具备法律效应。如果只是
Flink实战（七十）：监控（二）搭建flink可视化监控 Pushgateway+ Prometheus + Grafana （windows ）王知无(import_bigdata) Flink系统性学习专栏 flink 大数据
1Flink的配置:在flink配置⽂件flink-conf.yaml中添加：metrics.reporter.promgateway.class:org.apache.flink.metrics.prometheus.PrometheusPushGatewayReportermetrics.reporter.promgateway.host:localhost#promgateway主要是Pus
JDBC时间类型与Java类型、Flink SQL时间类型与Java类型的对应关系哈哈很哈哈 java flink sql
一、JDBC时间类型与Java类型的对应关系JDBC类型Java类型说明TIMESTAMPjava.sql.Timestamp表示日期和时间（含毫秒）DATEjava.sql.Date仅表示日期（不含时间）TIMEjava.sql.Time仅表示时间（不含日期）说明：java.sql.Timestamp继承自java.util.Date，可精确到纳秒（实际常用毫秒）。java.sql.Date和j
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

Flink的 RecordWriter 数据通道 详解

1. 什么是 RecordWriter？