大数据AI

Flink Upsert Kafka SQL Connector 介绍

一前言

在某些场景中，比方GROUP BY聚合之后的后果，须要去更新之前的结果值。这个时候，须要将 Kafka 记录的 key 当成主键解决，用来确定一条数据是应该作为插入、删除还是更新记录来解决。在 Flink1.11 中，能够通过 flink-cdc-connectors 项目提供的 changelog-json format 来实现该性能。

在 Flink1.12 版本中，新增了一个 upsert connector(upsert-kafka)，该 connector 扩大自现有的 Kafka connector，工作在 upsert 模式（FLIP-149）下。新的 upsert-kafka connector 既能够作为 source 应用，也能够作为 sink 应用，并且提供了与现有的 kafka connector 雷同的基本功能和持久性保障，因为两者之间复用了大部分代码。

二 upsert kafka connector

Upsert Kafka Connector容许用户以upsert的形式从Kafka主题读取数据或将数据写入Kafka主题。

作为 source，upsert-kafka 连接器生产 changelog 流，其中每条数据记录代表一个更新或删除事件。更准确地说，数据记录中的 value 被解释为同一 key 的最后一个 value 的 UPDATE，如果有这个 key（如果不存在相应的 key，则该更新被视为 INSERT）。用表来类比，changelog 流中的数据记录被解释为 UPSERT，也称为 INSERT/UPDATE，因为任何具有相同 key 的现有行都被覆盖。另外，value 为空的消息将会被视作为 DELETE 消息。

作为 sink，upsert-kafka 连接器可以消费 changelog 流。它会将 INSERT/UPDATE_AFTER 数据作为正常的 Kafka 消息写入，并将 DELETE 数据以 value 为空的 Kafka 消息写入（表示对应 key 的消息被删除）。Flink 将根据主键列的值对数据进行分区，从而保证主键上的消息有序，因此同一主键上的更新/删除消息将落在同一分区中。

其中每条数据记录代表一个更新或删除事件，原理如下：

Kafka Topic中存在相应的Key，则以UPDATE操作将Key的值更新为数据记录中的Value。
Kafka Topic中不存在相应的Key，则以INSERT操作将Key的值写入Kafka Topic。
Key对应的Value为空，会被视作DELETE操作。

三案例

3.1 kafka 处理后写入kafka

3.1.1 创建kafka topic

$ kafka-topics --create --topic user-behavior --partitions 3 --replication-factor 2 --bootstrap-server cdh68:9092,cdh69:9092,cdh70:9092
$ kafka-topics --create --topic after-user-behavior --partitions 3 --replication-factor 2 --bootstrap-server cdh68:9092,cdh69:9092,cdh70:9092
$ kafka-console-producer --topic user-behavior --broker-list cdh68:9092,cdh69:9092,cdh70:9092
$ kafka-console-consumer --topic user-behavior --from-beginning --group test-user --bootstrap-server cdh68:9092,cdh69:9092,cdh70:9092      
$ kafka-console-consumer --topic after-user-behavior --from-beginning --group test --bootstrap-server cdh68:9092,cdh69:9092,cdh70:9092

3.2 Flink SQL

3.2.1 source

%flink.ssql
drop table if exists user_behavior;
CREATE TABLE user_behavior (
    id BIGINT,
    name STRING,
    flag STRING
) WITH (
    'connector' = 'kafka',  -- 使用 kafka connector
    'topic' = 'user-behavior',  -- kafka topic
    'properties.group.id'='cdc', -- 消费者组
    'scan.startup.mode' = 'latest-offset',  -- 从起始 offset 开始读取
    'json.fail-on-missing-field' = 'false',
    'json.ignore-parse-errors' = 'true',
    'properties.bootstrap.servers' = 'cdh68:9092,cdh69:9092,cdh70:9092',  -- kafka broker 地址
    'format' = 'json'  -- 数据源格式为 json
);

3.2.2 sink

%flink.ssql
drop table if exists after_user_behavior;
CREATE TABLE after_user_behavior (
  name STRING,
  pv BIGINT,
  PRIMARY KEY (name) NOT ENFORCED
) WITH (
  'connector' = 'upsert-kafka',
  'topic' = 'after-user-behavior',
  'properties.bootstrap.servers' = 'cdh68:9092,cdh69:9092,cdh70:9092',
  'value.json.fail-on-missing-field' = 'false',
  'key.json.ignore-parse-errors' = 'true',
  'key.format' = 'json',
  'value.format' = 'json'
);

一定要设置主键 Primar要使用 upsert-kafka connector，DDL语句中，一定要设置 PRIMARY KEY 主键，并为键（key.format）和值（value.format）指定序列化反序列化格式。

当数据源端进行了增删改，对应的 pv 结果就会同步更新，这就是 upsert kafka 的魅力。

这是基于kafka的统计计算，前提条件是 topic user-behavior中的数据是 changelog 格式的。

3.2.3 transform

%flink.ssql
INSERT INTO after_user_behavior
SELECT
  name,
  COUNT(*)
FROM user_behavior 
GROUP BY name;

注意：after_user_behavior 必须为 upsert-kafka connector

如果after_user_behavior为 kafka connector,执行此语句则会报如下错误：

java.io.IOException: org.apache.flink.table.api.TableException: Table sink 'default_catalog.default_database.after_user_behavior' doesn't support consuming update changes which is produced by node GroupAggregate(groupBy=[name], select=[name, COUNT(*) AS EXPR$1])

因为语句SELECT name, COUNT(*) FROM user_behavior GROUP BY name; 通过group by后数据是不断更新变化的，因此只能用 upsert-kafka connector。

3.3 输出结果

3.3.1 kafka user-behavior producer

[song@cdh68 ~]$ kafka-console-producer --topic user-behavior --broker-list cdh68:9092,cdh69:9092,cdh70:9092
>{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"user","ts":6852139698555588608}
>{"schema":"presto","flag":false,"name":"Lucy","id":"67","type":"INSERT","table":"user","ts":6852139698555588608}
>{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"info","ts":6852139698555588608}
>{"schema":"presto","flag":false,"name":"Lucy","id":"67","type":"INSERT","table":"info","ts":6852139698555588608}
>{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"user","ts":6852139698555588608}
>{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"user","ts":6852139698555588608}
>{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"UPDATE","table":"user","ts":6852139698555588608}
>{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"DELETE","table":"user","ts":6852139698555588608}

topic user-behavior中的数据是 changelog 格式的。

3.3.2 kafka user-behavior consumer

[song@cdh70 ~]$ kafka-console-consumer --topic user-behavior --group test-user --bootstrap-server cdh68:9092,cdh69:9092,cdh70:9092
{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"user","ts":6852139698555588608}
{"schema":"presto","flag":false,"name":"Lucy","id":"67","type":"INSERT","table":"user","ts":6852139698555588608}
{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"info","ts":6852139698555588608}
{"schema":"presto","flag":false,"name":"Lucy","id":"67","type":"INSERT","table":"info","ts":6852139698555588608}
{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"user","ts":6852139698555588608}
{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"INSERT","table":"user","ts":6852139698555588608}
{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"UPDATE","table":"user","ts":6852139698555588608}
{"schema":"presto","flag":false,"name":"Mars","id":"85","type":"DELETE","table":"user","ts":6852139698555588608}

3.3.3 kafka after-user-behavior consumer

[song@cdh69 ~]$ kafka-console-consumer --topic after-user-behavior --group test --bootstrap-server cdh68:9092,cdh69:9092,cdh70:9092
{"name":"Mars","pv":1}
{"name":"Lucy","pv":1}
{"name":"Mars","pv":2}
{"name":"Lucy","pv":2}
{"name":"Mars","pv":3}
{"name":"Mars","pv":4}
{"name":"Mars","pv":5}
{"name":"Mars","pv":6}

3.3.4 FlinkSQL user_behavior

从此结果可以看出 kafka 和 upsert-kafka 的区别：

kafka 的结果则显示所有数据，upsert-kafka则显示更新后的最新数据。

3.3.5 FlinkSQL alfter_user_behavior

此结果是动态变化的，变化与kafka after-user-behavior consumer相同。

可见，upsert-kafka 表存储了所有变化的数据，但是读取时，只读取最新的数据。

3.2 flink-pageviews-demo

https://github.com/fsk119/flink-pageviews-demo

3.2.1 测试数据准备

在 Mysql 中执行以下命令：

CREATE DATABASE flink;
USE flink;

CREATE TABLE users (
  user_id BIGINT,
  user_name VARCHAR(1000),
  region VARCHAR(1000)
);

INSERT INTO users VALUES 
(1, 'Timo', 'Berlin'),
(2, 'Tom', 'Beijing'),
(3, 'Apple', 'Beijing');

现在，我们利用Sql client在Flink中创建相应的表。

CREATE TABLE users (
  user_id BIGINT,
  user_name STRING,
  region STRING
) WITH (
  'connector' = 'mysql-cdc',
  'hostname' = 'localhost',
  'database-name' = 'flink',
  'table-name' = 'users',
  'username' = 'root',
  'password' = '123456'
);

CREATE TABLE pageviews (
  user_id BIGINT,
  page_id BIGINT,
  view_time TIMESTAMP(3),
  proctime AS PROCTIME()
) WITH (
  'connector' = 'kafka',
  'topic' = 'pageviews',
  'properties.bootstrap.servers' = 'localhost:9092',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'json'
);

并利用Flink 往 Kafka中灌入相应的数据

INSERT INTO pageviews VALUES
  (1, 101, TO_TIMESTAMP('2020-11-23 15:00:00')),
  (2, 104, TO_TIMESTAMP('2020-11-23 15:00:01.00'));

3.2.2 将 left join 结果写入 kafka

我们首先测试是否能将Left join的结果灌入到 Kafka 之中。

首先，我们在 Sql client 中创建相应的表

CREATE TABLE enriched_pageviews (
  user_id BIGINT,
  user_region STRING,
  page_id BIGINT,
  view_time TIMESTAMP(3),
  WATERMARK FOR view_time as view_time - INTERVAL '5' SECOND,
  PRIMARY KEY (user_id, page_id) NOT ENFORCED
) WITH (
  'connector' = 'upsert-kafka',
  'topic' = 'enriched_pageviews',
  'properties.bootstrap.servers' = 'localhost:9092',
  'key.format' = 'json',
  'value.format' = 'json'
);

并利用以下语句将left join的结果插入到kafka对应的topic之中。

INSERT INTO enriched_pageviews
SELECT pageviews.user_id, region, pageviews.page_id, pageviews.view_time
FROM pageviews
LEFT JOIN users ON pageviews.user_id = users.user_id;

利用以下命令，我们可以打印topic内的数据kafka-console-consumer.sh --bootstrap-server kafka:9094 --topic "enriched_pageviews" --from-beginning --property print.key=true

#预期结果
{"user_id":1,"page_id":101}	{"user_id":1,"user_region":null,"page_id":101,"view_time":"2020-11-23 15:00:00"}
{"user_id":2,"page_id":104}	{"user_id":2,"user_region":null,"page_id":104,"view_time":"2020-11-23 15:00:01"}
{"user_id":1,"page_id":101}	null
{"user_id":1,"page_id":101}	{"user_id":1,"user_region":"Berlin","page_id":101,"view_time":"2020-11-23 15:00:00"}
{"user_id":2,"page_id":104}	null
{"user_id":2,"page_id":104}	{"user_id":2,"user_region":"Beijing","page_id":104,"view_time":"2020-11-23 15:00:01"}

Left join中，右流发现左流没有join上但已经发射了，此时会发送DELETE消息，而非UPDATE-BEFORE消息清理之前发送的消息。详见org.apache.flink.table.runtime.operators.join.stream.StreamingJoinOperator#processElement

我们可以进一步在mysql中删除或者修改一些数据，来观察进一步的变化。

UPDATE users SET region = 'Beijing' WHERE user_id = 1;

DELETE FROM users WHERE user_id = 1;

3.2.3 将聚合结果写入kafka

我们进一步测试将聚合的结果写入到 Kafka 之中。

在Sql client 中构建以下表

CREATE TABLE pageviews_per_region (
  user_region STRING,
  cnt BIGINT,
  PRIMARY KEY (user_region) NOT ENFORCED
) WITH (
  'connector' = 'upsert-kafka',
  'topic' = 'pageviews_per_region',
  'properties.bootstrap.servers' = 'localhost:9092',
  'key.format' = 'json',
  'value.format' = 'json'
)

我们再用以下命令将数据插入到upsert-kafka之中。

INSERT INTO pageviews_per_region
SELECT
  user_region,
  COUNT(*)
FROM enriched_pageviews
WHERE user_region is not null
GROUP BY user_region;

我们可以通过以下命令查看 Kafka 中对应的数据

./kafka-console-consumer.sh --bootstrap-server kafka:9094 --topic "pageviews_per_region" --from-beginning --property print.key=true

# 预期结果
{"user_region":"Berlin"}	{"user_region":"Berlin","cnt":1}
{"user_region":"Beijing"}	{"user_region":"Beijing","cnt":1}
{"user_region":"Berlin"}	null
{"user_region":"Beijing"}	{"user_region":"Beijing","cnt":2}
{"user_region":"Beijing"}	{"user_region":"Beijing","cnt":1}

你可能感兴趣的:(大数据从入门到精通,flink,kafka)

实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
免费编程课程大汇总：从入门到精通的一站式资源大力出奇迹985 人工智能大数据
在数字化时代，编程已成为一项至关重要的技能，无论是为了职业发展还是个人兴趣，学习编程都极具价值。本文精心汇总了丰富的免费编程课程资源，涵盖从基础入门到精通的各个阶段。通过全面介绍如Coursera、edX等在线学习平台，Codecademy、freeCodeCamp等交互式学习网站，以及B站、网易云课堂等视频课程平台的免费课程，为编程学习者提供了一站式的资源指南，帮助读者轻松开启编程学习之旅，逐步
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
OpenSIPS 邂逅 Kafka：构建高效 VoIP 消息处理架构 c_zyer opensips SIP 消息队列 kafka opensips voip
使用场景使用步骤引入模块组装&发送数据消费数据故障转移使用场景异步日志处理：将OpenSIPS中的SIP信令日志、通话记录（CDR）等数据发送到Kafka队列中。事件通知与监控：利用OpenSIPS的event_interface模块将SIP事件（如呼叫建立、断开、注册等）推送到KafkaOpenSIPS中事件接口有以下类型：EVENT_DATAGRAM-PublishJSON-RPCnotifi
第二阶段-第二章—8天Python从入门到精通【itheima】-137节（Python操作MySQL的数据插入） Patrick_kafka mysql 数据库 sql python 数据分析大数据开发语言
目录137节——Python操作MySQL的数据插入1.学习目标2.commit提交3.commit手动确认的执行代码4.commit自动确认：添加在conn的类对象中一个参数autocommit=True5.小节总结6.为什么要用Python操作MySQL？一、从“手动记账”到“自动化账本”：理解技术演进的本质1.SQL的“强项”与“短板”2.Python的“赋能”作用二、Python+PyMy
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
Linux从入门到精通——基础篇 weixin_30390075
一.关于Linux的简介1.什么是Linux？Linux这个词指的是Linux内核，它是用来驱动电脑里的硬件的，而Linux操作系统指的是Linux内核和GUN组织(GUN的全称为GUNisnotUnix)所编写的软件，有了这个内核和相应的软件，由“死”的机械硬件组成的计算机才变成了“活”的，需要注意的是，单纯的软件并不能代表Linux系统。2.Linux的特点和优势1．模块化程度高Linux的内
linux shell从入门到精通（一）——为什么要学习Linux Shell
1.编译型语言和解释型语言计算机不能直接理解高级语言，只能直接理解机器语言，所以必须要把高级语言翻译成机器语言，计算机才能执行高级语言编写的程序。翻译的方式有两种，一种是编译（compile），另一种是解释（interpret）。两种方式只是翻译的时间不同。编译型语言写在程序执行之前，需要一个专门的编译过程，把程序编译成为机器语言的文件，例如：Windows系统中的EXE文件，编译好后运行
【技术精进】Java集合框架：从入门到精通的思考之路果冻kk java基础 Java集合 java python 开发语言
Java集合框架学习指南：一份完整的知识地图️前言JAVA集合，是每个Java开发者的必备武器。工作中的程序员都在使用它，因为它是数据处理中不可或缺的工具。说到如何优雅地使用、如何实现高性能、如何确保线程安全，相信大家都有自己的心得，毕竟实战中遇到的问题和解决方案都是最好的老师。但要说到底层实现原理、设计思想，可能就只有部分开发者有深入研究了。本文旨在帮助新手构建知识体系，也为老手提供系统复习的参
ADB 调试神器：从入门到精通的完整指南 AI移动开发前沿 AI移动端开发宝典 adb ai
ADB调试神器：从入门到精通的完整指南关键词：ADB调试、Android开发、设备通信、调试工具、安卓调试桥摘要：ADB（AndroidDebugBridge，安卓调试桥）是安卓开发者和极客玩家的“万能钥匙”——它能让电脑与安卓设备无缝对话，完成安装应用、抓取日志、模拟操作等上百种任务。本文将从“为什么需要ADB”讲起，用“快递系统”“翻译官”等生活化比喻拆解核心原理，配合超详细的操作步骤和实战案
JSP编程从入门到精通：现代Web开发与AI集成实战指南 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总人工智能 AI编程笔记开发语言深度学习
JSP编程从入门到精通：现代Web开发与AI集成实战指南一、JSP基础与环境搭建1.1JSP核心概念与工作原理JSP（JavaServerPages）是一种动态网页开发技术，通过在HTML中嵌入Java代码实现服务器端逻辑。其本质是Servlet的扩展，当客户端首次请求JSP页面时，服务器会将其编译为Servlet类（如index_jsp.java），再执行该类的_jspService()方法生成
Kafka事务机制详解一碗黄焖鸡三碗米饭 Kafka全景解析 kafka 分布式 Java 副本事务分区大数据
目录Kafka事务机制详解1.Kafka中的事务概述2.Kafka事务的基本概念2.1精确一次处理（ExactlyOnceSemantics，EOS）2.2Kafka事务的工作流程3.Kafka事务的配置与使用3.1生产者端的事务配置3.2消费者端的事务配置4.Kafka事务的优势与限制4.1Kafka事务的优势4.2Kafka事务的限制5.总结在分布式系统中，事务性操作（如数据库事务）是非常重要
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
kafka的ISR机制详解 inori1256 kafka 分布式
Kafka的ISR机制ISR（In-SyncReplicas同步副本集）机制是一种用于确保数据可靠性和一致性的重要机制。一、ISR的定义ISR是指与Kafka分区中的Leader副本保持同步的Follower副本集合。这些副本已经复制了Leader副本的所有数据，并且它们的落后时间在一定范围内，因此被认为是可靠的、可以用于故障转移和数据恢复的副本。二、ISR的作用数据复制：当消息被写入Kafka的
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥密落霞归雁 AI编程教育电商微信开放平台 rabbitmq 中间件
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥秘在当今数字化时代，消息队列（MessageQueue，简称MQ）已经成为分布式系统中不可或缺的组件，而ApacheKafka作为其中的佼佼者，以其卓越的性能和广泛的应用场景脱颖而出。今天，就让我们用一句话读懂Kafka，并通过5W1H（What、Why、Who、When、Where、How）的方式，深入剖析它的核心价值与技术魅力。一句话读懂
Kafka——两种集群搭建详解 k8s Michaelwubo kafka 分布式
1、简介Kafka是一个能够支持高并发以及流式消息处理的消息中间件，并且Kafka天生就是支持集群的，今天就主要来介绍一下如何搭建Kafka集群。Kafka目前支持使用Zookeeper模式搭建集群以及KRaft模式（即无Zookeeper）模式这两种模式搭建集群，这两种模式各有各的好处，今天就来分别介绍一下这两种方式1.1、Kafka集群中的节点类型一个Kafka集群是由下列几种类型的节点构成的
零基础学习性能测试第九章：全链路追踪-系统中间件节点监控试着性能测试学习中间件性能测试零基础
目录一、为什么需要监控中间件节点？二、主流中间件监控方案1.监控体系架构2.监控工具矩阵三、环境搭建实战1.部署Prometheus2.部署Grafana四、中间件监控配置实战1.Nginx监控2.Redis监控3.Kafka监控4.MySQL监控五、全链路追踪中的中间件监控1.SkyWalking与Prometheus集成2.全链路视角的中间件监控六、性能瓶颈定位实战1.瓶颈分析流程图2.典型瓶
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
智能合约从入门到精通：Solidity语法之内存变量的布局和状态变量的存储模型... Mathilda91 区块链
简介：在前面我们已经讲过Solidity语言的一些语法内容，在矩阵元JUICE开放平台的JIDE开发时，一定要注意LayoutinMemory和LayoutofStateVariablesinStorage，即内存变量的布局和状态变量的存储模型。内存变量的布局（LayoutinMemory）Solidity预留了3个32字节大小的槽位：0-64：哈希方法的暂存空间(scratchspace)64-
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他