5、Confluent Platform安装配置和常用操作详细教程

Confluent安装配置及操作教程

> 环境准备
- Confluent Platform对应的Kafka版本
- 对应KSQL版本
- 对应Scala版本
- 对应Zookeeper版本
- 操作系统环境
- JAVA环境
Step1：安装并开启Confluent Platform（本次下载社区版）
Step2：修改配置
- （1）设置环境变量
- （2）Zookeeper配置
- （3）Kafka配置
Step3：开启confluent
Step4：创建Kafka topic
- （1）创建两个Kafka topic
- （2）安装Kafka Connector并生成示例数据
Step5：使用KSQL创建并写入流和表
- 创建Stream和Table
- 创建Stream
- 创建Table
- 写查询
Step6：监控数据流量
Step7：登录Confluent Control center
Step7：停止融合平台

> 环境准备

Confluent Platform对应的Kafka版本

Confluent Platform	Apache Kafka
2.0.x	0.9.0.x
3.0.x	0.10.0.x
3.1.x	0.10.1.x
3.2.x	0.10.2.x
3.3.x	0.11.0.x
4.0.x	1.0.x
4.1.x	1.1.x
5.0.x	2.0.x
5.1.x	2.1.x
5.2.x	2.2.x
5.3.x	2.3.x
5.4.x	2.4.x

对应KSQL版本

KSQL version	5.4
Apache Kafka version	0.11.0 and later
Confluent Platform version	3.3.0 and later

对应Scala版本

Confluent Platform	Scala Version
1.0.0	2.10, 2.11
2.0.x	2.10, 2.11
3.0.x	2.10, 2.11
3.1.x	2.10, 2.11
3.2.x	2.10, 2.11
3.3.x	2.11
4.0.x	2.11
4.1.x	2.11
5.0.x	2.11
5.1.x	2.11
5.2.x	2.11, 2.12
5.3.x	2.11, 2.12
5.4.x	2.11, 2.12

对应Zookeeper版本

Confluent Platform	ZooKeeper
3.0.x	3.4.6
3.1.x	3.4.8
3.2.x	3.4.9
3.3.x	3.4.10
4.0.x	3.4.10
4.1.x	3.4.10
5.0.x	3.4.13
5.1.x	3.4.13
5.2.x	3.4.13
5.3.x	3.4.14
5.4.x	3.5.6

操作系统环境

Confluent Platform当前不支持Windows。Windows用户可以下载和使用ZIP和TAR档案，但必须直接运行JAR文件。

JAVA环境

从Confluent Platform 5.0开始，最低要求的版本是Java Development Kit（JDK）8。不再支持Java 7或更早版本。使用完整的JDK，而不是Java Runtime Environment（JRE）。支持OpenJDK，Zulu OpenJDK和Oracle。

Confluent Platform	Java Version
5.4.x	1.8.0_202, 11.0_4
5.3.x	1.8.0_60, 11.0_2
5.2.x	1.8.0_60, 11.0_2
5.1.x	1.8.0_60
5.0.x	1.8.0_60
4.1.x	1.7.0_60, 1.8.0_60
4.0.x	1.7.0_60, 1.8.0_60
3.3.x	1.7.0_60, 1.8.0_60
3.2.x	1.7.0_60, 1.8.0_60
3.1.x	1.7.0_60, 1.8.0_60
3.0.x	1.7.0_60, 1.8.0_60
2.0.x	1.7.0_60, 1.8.0_60
1.0.0	1.7.0_60, 1.8.0_60

Step1：安装并开启Confluent Platform（本次下载社区版）

方式一：通过官网下载tar包
下载地址：Get Started Free

方式二：通过命令行下载

wget -P ~/Downloads/kafka http://packages.confluent.io/archive/5.2/confluent-5.2.3-2.12.tar.gz

扩展知识：
Linux系统中的wget是一个下载文件的工具，它用在命令行下。
默认文件下载在当前工作路径，可以设置-P参数指定文件的下载地址。
下载文件到~/download目录中
#wget -P ~/download file.name

curl和wget的区别和使用

curl,wget指定下载目录，tar，unzip指定解压目录

文件目录

文件夹	描述
/bin/	启动和停止服务的驱动脚本
/etc/	配置文件
/lib/	系统服务
/log/	日志文件
/share/	jar包和许可证
/src/	需要依赖于平台构建的源文件

Step2：修改配置

（1）设置环境变量

在/etc/profile添加

export CONFLUENT_HOME=<path>
export PATH=$PATH:CONFLUENT_HOME/bin

（2）Zookeeper配置

编辑confluent/etc/kafka/zookeeper.properites，更改存储路径

dataDir=<path-confluent>/data/zookeeper #数据存储路径

dataDir可根据自己情况更改

参考文档：Running ZooKeeper in Production

（3）Kafka配置

编辑confluent/etc/kafka/server.properties，更改存储路径

log.dirs=<path-confluent>/data/kafka

log.dirs可根据自己情况更改

参考文档：Running Kafka in Production

其余配置参考文章：数据库实时转移之Confluent环境搭建（二）

Step3：开启confluent

全部开启

$ bin/confluent start
This CLI is intended for development only, not for production
https://docs.confluent.io/current/cli/index.html

Using CONFLUENT_CURRENT: /tmp/confluent.kCqiBZdw
Starting zookeeper
zookeeper is [UP]
Starting kafka
kafka is [UP]
Starting schema-registry
schema-registry is [UP]
Starting kafka-rest
kafka-rest is [UP]
Starting connect
connect is [UP]
Starting ksql-server
ksql-server is [UP]
Starting control-center
control-center is [UP]

若单独启动：

# 启动zookeeper server
bin/zookeeper-server-start etc/kafka/zookeeper.properties
# 启动kafka server
bin/kafka-server-start etc/kafka/server.properties
# 启动ksql server
bin/ksql-server-start -daemon etc/ksql/ksql-server.properties

Step4：创建Kafka topic

（1）创建两个Kafka topic

创建一个名为的主题users

bin/kafka-topics --create --zookeeper localhost:2181 \
> --replication-factor 1 --partitions 1 --topic users

Created topic "users".

创建一个名为的主题pageviews

bin/kafka-topics --create --zookeeper localhost:2181   \
--replication-factor 1 --partitions 1 --topic pageviews

Created topic "pageviews".

（2）安装Kafka Connector并生成示例数据

使用Kafka Connect运行名为的演示源连接器kafka-connect-datagen，该连接器将为Kafka主题创建示例数据pageviews和users。

运行Kafka Connect Datagen连接器的一个实例，pageviews以AVRO格式为主题生成Kafka数据。

wget https://github.com/confluentinc/kafka-connect-datagen/raw/master/config/connector_pageviews_cos.config
curl -X POST -H "Content-Type: application/json" --data @connector_pageviews_cos.config http://localhost:8083/connectors

运行Kafka Connect Datagen连接器的一个实例，users以AVRO格式为主题生成Kafka数据。

wget https://github.com/confluentinc/kafka-connect-datagen/raw/master/config/connector_users_cos.config
curl -X POST -H "Content-Type: application/json" --data @connector_users_cos.config http://localhost:8083/connectors

Step5：使用KSQL创建并写入流和表

在此步骤中，将在上一步中创建的pageviews和users主题上运行KSQL查询。以下KSQL命令从KSQL CLI运行。

创建Stream和Table

启动ksql

bin/ksql

默认情况下，KSQL尝试将其日志存储在logs相对于ksql可执行文件位置的目录中。例如，如果ksql安装在/usr/local/bin/ksql，则它将尝试将其日志存储在中/usr/local/logs。如果您ksql从默认的Confluent Platform位置运行，则/bin必须使用LOG_DIR变量覆盖此默认行为。

创建Stream

从Kafka的主题pageviews中创建一个流pageviews，指定value_format的AVRO

CREATE STREAM pageviews (viewtime BIGINT, userid VARCHAR, pageid VARCHAR) \
WITH (KAFKA_TOPIC='pageviews', VALUE_FORMAT='AVRO');

ksqlDB要求使用Kafka自己的序列化器或兼容的序列化器对密钥进行序列化。ksqlDB支持INT、BIGINT、DOUBLE和STRING键类型。
viewtime：viewtime列值用作新流的底层Apache Kafka®主题中的Apache Kafka®消息时间戳。
userid：userid列是新流的键。
kafka_topic：流下面的Kafka主题的名称。如果存在将在已经存在的主题上创建流，如果不存在它将被自动创建。
VALUE_FORMAT：ksqlDB无法推断主题值的数据格式，因此必须提供存储在主题中的值的格式。在本例中，值格式是avro。
partitions：为location主题创建的分区的数量。请注意，对于已经存在的主题，不需要此参数。
创建一个包含三列的名为pageviews的Kafka主题流。如果Apache Kafka®中的消息键值与ksqlDB流中定义的列之一相同，则可以在WITH子句中提供此信息。例如，如果Apache Kafka®消息键具有与pageid列相同的值，您可以像这样编写CREATE STREAM语句:

CREATE STREAM pageviews
  (viewtime BIGINT,
   userid VARCHAR,
   pageid VARCHAR)
 WITH (KAFKA_TOPIC='pageviews',
       VALUE_FORMAT='DELIMITED',
       KEY='pageid');

 Message        
----------------
 Stream created 
----------------

查看Stream

SHOW STREAMS;

 Stream Name      | Kafka Topic      | Format
-------------------------------------------------
 PAGEVIEWS        | pageviews        | AVRO
-------------------------------------------------

创建Table

从Kafk主题的主题users中创建一个多列的表users，用value_format的AVRO

CREATE TABLE users (registertime BIGINT, gender VARCHAR, regionid VARCHAR,  \
userid VARCHAR) \
WITH (KAFKA_TOPIC='users', VALUE_FORMAT='AVRO', KEY = 'userid');

 Message       
---------------
 Table created 
---------------

查询Tabel

SHOW TABELS;

 Table Name        | Kafka Topic       | Format    | Windowed
--------------------------------------------------------------
 USERS             | users             | AVRO      | false
--------------------------------------------------------------

写查询

（1）earliest为auto.offset.reset参数添加定制查询属性。指示KSQL查询从头开始读取所有可用的主题数据。此配置用于每个后续查询。有关更多信息，请参阅KSQL Configuration Parameter Reference

SET 'auto.offset.reset'='earliest';

Successfully changed local property 'auto.offset.reset' from 'null' to 'earliest'

（2）创建一个查询，该查询从流中返回数据，结果限制为三行。

SELECT pageid FROM pageviews LIMIT 3;

Page_45
Page_38
Page_11
LIMIT reached for the partition.
Query terminated

（3）创建一个针对female用户的持久查询。该查询的结果将写入Kafka的PAGEVIEWS_FEMALE 主题。此查询丰富了pageviews通过执行STREAM与用户ID表，该查询需要有条件gender = 'FEMALE'

CREATE STREAM pageviews_female AS SELECT users.userid AS userid, pageid, \
regionid, gender FROM pageviews LEFT JOIN users ON pageviews.userid = users.userid \
WHERE gender = 'FEMALE';

 Message
----------------------------
 Stream created and running
----------------------------

（4）使用LIKE创建一个符合条件（regionid）的永久查询。该查询的结果将写入名为pageviews_enriched_r8_r9的Kafka主题

CREATE STREAM pageviews_female_like_89 WITH (kafka_topic='pageviews_enriched_r8_r9', \
value_format='AVRO') AS SELECT * FROM pageviews_female WHERE regionid LIKE '%_8' OR regionid LIKE '%_9';

 Message
----------------------------
 Stream created and running
----------------------------

（5）创建一个持久查询，当计数大于1时，将在30秒的翻滚窗口中对每个区域和性别组合的浏览量进行计数。由于该过程是分组和计数，因此结果现在是表而不是流。该查询的结果将写入名为的Kafka主题PAGEVIEWS_REGIONS。

CREATE TABLE pageviews_regions AS SELECT gender, regionid , \
COUNT(*) AS numusers FROM pageviews_female WINDOW TUMBLING (size 30 second) \
GROUP BY gender, regionid HAVING COUNT(*) > 1;

 Message
---------------------------
 Table created and running
---------------------------

Step6：监控数据流量

使用命令查看流或表的详细信息。例如，运行以下命令以查看流

DESCRIBE EXTENDED pageviews_female_like_89;

Type                 : STREAM
Key field            : PAGEVIEWS.USERID
Timestamp field      : Not set - using 
Key format           : STRING
Value format         : AVRO
Kafka output topic   : pageviews_enriched_r8_r9 (partitions: 4, replication: 1)

 Field    | Type
--------------------------------------
 ROWTIME  | BIGINT           (system)
 ROWKEY   | VARCHAR(STRING)  (system)
 USERID   | VARCHAR(STRING)  (key)
 PAGEID   | VARCHAR(STRING)
 REGIONID | VARCHAR(STRING)
 GENDER   | VARCHAR(STRING)
--------------------------------------

Queries that write into this STREAM
-----------------------------------
id:CSAS_PAGEVIEWS_FEMALE_LIKE_89 - CREATE STREAM pageviews_female_like_89 WITH (kafka_topic='pageviews_enriched_r8_r9', value_format='AVRO') AS SELECT * FROM pageviews_female WHERE regionid LIKE '%_8' OR regionid LIKE '%_9';

For query topology and execution plan please run: EXPLAIN 

Local runtime statistics
------------------------
messages-per-sec:      2.01   total-messages:     10515     last-message: 3/14/18 2:25:40 PM PDT
 failed-messages:         0 failed-messages-per-sec:         0      last-failed:       n/a
(Statistics of the local KSQL server interaction with the Kafka topic pageviews_enriched_r8_r9)

使用EXPLAIN命令发现查询执行计划。例如，运行以下命令以查看以下查询的执行计划CTAS_PAGEVIEWS_REGIONS：

EXPLAIN CTAS_PAGEVIEWS_REGIONS;

Type                 : QUERY
SQL                  : CREATE TABLE pageviews_regions AS SELECT gender, regionid , COUNT(*) AS numusers FROM pageviews_female WINDOW TUMBLING (size 30 second) GROUP BY gender, regionid HAVING COUNT(*) > 1;


Local runtime statistics
------------------------
messages-per-sec:      1.42   total-messages:     13871     last-message: 3/14/18 2:50:02 PM PDT
 failed-messages:         0 failed-messages-per-sec:         0      last-failed:       n/a
(Statistics of the local KSQL server interaction with the Kafka topic PAGEVIEWS_REGIONS)

Execution plan
--------------
 > [ PROJECT ] Schema: [GENDER : STRING , REGIONID : STRING , NUMUSERS : INT64].
         > [ FILTER ] Schema: [PAGEVIEWS_FEMALE.GENDER : STRING , PAGEVIEWS_FEMALE.REGIONID : STRING , PAGEVIEWS_FEMALE.ROWTIME : INT64 , KSQL_AGG_VARIABLE_0 : INT64 , KSQL_AGG_VARIABLE_1 : INT64].
                 > [ AGGREGATE ] Schema: [PAGEVIEWS_FEMALE.GENDER : STRING , PAGEVIEWS_FEMALE.REGIONID : STRING , PAGEVIEWS_FEMALE.ROWTIME : INT64 , KSQL_AGG_VARIABLE_0 : INT64 , KSQL_AGG_VARIABLE_1 : INT64].
                         > [ PROJECT ] Schema: [PAGEVIEWS_FEMALE.GENDER : STRING , PAGEVIEWS_FEMALE.REGIONID : STRING , PAGEVIEWS_FEMALE.ROWTIME : INT64].
                                 > [ SOURCE ] Schema: [PAGEVIEWS_FEMALE.ROWTIME : INT64 , PAGEVIEWS_FEMALE.ROWKEY : STRING , PAGEVIEWS_FEMALE.USERID : STRING , PAGEVIEWS_FEMALE.PAGEID : STRING , PAGEVIEWS_FEMALE.REGIONID : STRING , PAGEVIEWS_FEMALE.GENDER : STRING].


Processing topology
-------------------
Topologies:
   Sub-topology: 0
    Source: KSTREAM-SOURCE-0000000000 (topics: [PAGEVIEWS_FEMALE])
      --> KSTREAM-MAPVALUES-0000000001
    Processor: KSTREAM-MAPVALUES-0000000001 (stores: [])
      --> KSTREAM-TRANSFORMVALUES-0000000002
      <-- KSTREAM-SOURCE-0000000000
    ...

  Sub-topology: 1
    Source: KSTREAM-SOURCE-0000000008 (topics: [KSQL_Agg_Query_1521052072079-repartition])
      --> KSTREAM-AGGREGATE-0000000005
    Processor: KSTREAM-AGGREGATE-0000000005 (stores: [KSQL_Agg_Query_1521052072079])
      --> KTABLE-FILTER-0000000009
      <-- KSTREAM-SOURCE-0000000008
    ...

Step7：登录Confluent Control center

localhost:9021 查看情况

Step7：停止融合平台

使用Confluent CLI stop命令停止Confluent Platform

bin/confluent stop

使用destroy命令销毁Confluent Platform实例中的数据。

bin/confluent destroy

参考文章：
Quick Start using Community Components（Local）

使用confluent本地安装和使用kafka

Confluent完全分布式框架搭建

数据分析：低代码平台助力大数据时代的飞跃发展快乐非自愿数据分析低代码大数据
随着信息技术的突飞猛进，我们身处于一个数据量空前增长的时代——大数据时代。在这个时代背景下，数据分析已经成为企业决策、政策制定、科学研究等众多领域不可或缺的重要工具。然而，面对海量的数据和日益复杂多变的分析需求，传统的数据分析方法往往捉襟见肘，难以应对。幸运的是，低代码平台的兴起为大数据分析注入了新的活力，成为推动大数据时代发展的重要力量。低代码平台，顾名思义，是一种通过少量甚至无需编写代码，就能
Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
【二】【设计模式】建造者模式妖精七七_ 设计模式设计模式建造者模式
建造者模式的引入//C10_1.cpp#include#include"SystemConfig.h"intmain(){SystemConfigconfig("mysql://127.0.0.1/","xiaomu","xiaomumemeda","redis://127.0.0.1/","xiaomuredis","xiaomuredispw","kafka://127.0.0.1","xia
kafka-eagle 配置文件修改使用自带的数据库 bright future cheer kafka 数据库分布式
######################################multizookeeper&kafkaclusterlistSettingsprefixedwith‘kafka.eagle.’willbedeprecated,use‘efak.’instead######################################efak.zk.cluster.alias=clu
Kafka、ActiveMQ、RabbitMQ 及 RocketMQ区别比较木西爷 kafka activemq rabbitmq 阿里云 rocketmq
消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。它可以实现高性能、高可用、可伸缩和最终一致性架构，是大型分布式系统不可缺少的中间件。消息队列在电商系统、消息通讯、日志收集等应用中扮演着关键作用，以阿里为例，其研发的消息队列（RocketMQ）在历次天猫“双十一”活动中支撑了万亿级的数据洪峰，为大规模交易提供了有力保障。常见消息中间件对比特性ActiveMQRab
山东省大数据局副局长禹金涛一行莅临聚合数据走访调研聚合数据 API 大数据人工智能 API
3月19日，山东省大数据局党组成员、副局长禹金涛莅临聚合数据展开考察调研。山东省大数据局数据应用管理与安全处处长杨峰，副处长都海明参加调研，苏州市大数据局副局长汤晶陪同。聚合数据董事长左磊等人接待来访。调研组一行参观了聚合数据展厅，了解了聚合数据的发展历程、数据产品、应用案例、奖项荣誉等情况。并就企业在数据处理和应用方面取得的成绩进行了深入交流。作为最早一批进入大数据行业的企业，聚合数据深耕行业十
智慧公厕的先进技术应用中期科技ZONTREE 智慧厕所智慧公厕智慧城市
公共厕所一直以来都是城市管理中一个重要的工作，但设施老化、环境脏乱、服务质量低下等问题一直困扰着城市居民。然而，随着科技的进步和数字技术的应用，智慧公厕的建设正在改变这一现状。智慧公厕通过对所在辖区内所有公共厕所的全域感知、全网协同、全业务融合和全场景智慧的赋能，“千厕一云”的公共厕所云管理模式应运而生。智慧公厕的云端多屏管理，将各个公厕连接在一起，实现信息的共享和管理的集中化。通过大数据、云计算
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
MQ横向对比：RocketMQ、Kafka、RabbitMQ、ActiveMQ、ZeroMQ namelessmyth Java框架 MQ rocketmq kafka rabbitmq activemq
前言本文将从多个角度全方位对比目前比较常用的几个MQ：RocketMQKafkaRabbitMQActiveMQZeroMQ下文单独说明。表格对比特性RocketMQKafkaRabbitMQActiveMQ单机吞吐量10万级，支撑高吞吐10万级以上，甚至有文献称，可以达到单机百万级TPS。万级，同ActiveMQ万级，相对其他MQ较低。topic数量对吞吐量的影响topic可以达到几百/几千的级
Maxwell监听mysql的binlog日志变化写入kafka消费者澄绪猿 mysql kafka 数据库
一.环境：maxwell:v1.29.2(从1.30开始maxwell停止了对java8的使用，改为为11)maxwell1.29.2这个版本对mysql8.0以后的缺少utf8mb3字符的解码问题，需要对原码中加上一个部分内容：具体也给大家做了总结：关于v1.29.2版本的Maxwell存在于mysql8.0后版本部分源码字符集处理确实问题-CSDN博客二.程序这里还是那一个kafka模拟器来实
一文详解大数据时代与低代码开发应用快乐非自愿大数据低代码
随着信息技术的飞速发展，我们迎来了一个崭新的时代——大数据时代。在这个时代，数据成为了一种新的资源，大数据技术的应用成为了推动社会进步的关键力量。而在大数据技术的浪潮中，低代码开发应用也逐渐崭露头角，以其高效、灵活的特点，成为大数据时代的重要支撑。大数据时代的来临随着科技的飞速发展和互联网的广泛普及，我们迎来了一个被称为“大数据时代”的全新时代。这个时代，数据无处不在，无时不刻不在增长，其规模之大
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
Debezium日常分享系列之：Debezium2.5稳定版本之MySQL连接器配置示例和Connector参数详解最笨的羊羊日常分享专栏 Debezium日常分享系列 Debezium2.5稳定版本 MySQL连接器配置示例 Connector参数详解
Debezium日常分享系列之：Debezium2.5稳定版本之MySQL连接器配置示例和Connector参数详解一、MySQL连接器配置示例二、添加连接器配置三、连接器属性四、必须的连接器配置属性五、高级MySQL连接器配置属性六、Debezium连接器数据库架构历史配置属性七、用于配置生产者和消费者客户端的传递数据库架构历史属性八、Debezium连接器Kafka信号配置属性九、Debezi
请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施盛溪的猫猫感悟大数据英语加拿大
目录请介绍一下大数据主要是干什么的？决策支持预测分析用户行为分析个性化服务操作优化风险管理创新与产品开发加拿大卡尔加里大学历史背景学术结构研究和创新校园设施国际化学生生活大语言模型目前的问题卡尔加里经济地理和气候文化和活动教育交通绿色城市AVL树的旋转单右旋（LL旋转）单左旋（RR旋转）左右旋（LR旋转）右左旋（RL旋转）请介绍一下大数据主要是干什么的？大数据是一个涉及从极其庞大和复杂的数据集中提
Flink 批作业消费kafka wending-Y Flink 入门到实践 flink kafka 大数据
文章目录示例代码原理总是kafka数据源可以是有界数据源，也可以是无界数据源示例代码publicstaticvoidmain(String[]args){StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism
GEE在灾害预警中的遥感云大数据应用及GPT模型辅助分析 AIzmjl GPT 生态遥感大数据 gpt gee 灾害预警水体湿地遥感
随着遥感技术的快速发展，云大数据在灾害、水体与湿地领域的应用日益广泛。通过遥感云大数据，我们能够实时获取灾害发生地的影像信息，为灾害预警、应急响应提供有力支持。同时，在水体与湿地监测方面，遥感云大数据也发挥着重要作用，帮助我们了解水体的分布、变化以及湿地的生态状况。近年来，GPT模型在自然语言处理领域取得了显著成果，其强大的文本生成和理解能力为遥感云大数据的应用提供了新的可能。通过将GPT模型与遥
大数据毕设图像识别-人脸识别与疲劳检测 - python opencv fawubio_A python 算法
文章目录0前言1课题背景2Dlib人脸识别2.1简介2.2Dlib优点2.3相关代码2.4人脸数据库2.5人脸录入加识别效果3疲劳检测算法3.1眼睛检测算法3.2打哈欠检测算法3.3点头检测算法4PyQt54.1简介4.2相关界面代码0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师
大数据开发（Hive面试真题-卷二） Key-Key 大数据 hive 面试
大数据开发（Hive面试真题）1、举几个Hive开窗函数例子？什么要有开窗函数，和聚集函数区别？2、说下Hive是什么？跟数据仓库区别？3、Hive架构？4、Hive数据倾斜以及解决方案？5、Hive如果不用参数调优，在map和reduce端应该做什么？6、Hive的三种自定义函数是什么？实现步骤与流程？它们之间的区别？作用是什么？7、Hive分区和分桶的区别？8、Hive的执行流程？9、Hive
【大数据面试题】014 Flink CDC 用过吗，请简要描述 Jiweilai1 一天一道面试题 flink 大数据面试 flink cdc
一步一个脚印，一天一道面试题。FlinkCDC的诞生背景FlinkCDC的全称是ChangeDataCapture（变更数据捕获）每一项技术的诞生都是为了解决某个问题，某个痛点。而FlinkCDC的诞生就是为了解决在读取，监控MySQL这样的数据库时，不会因为读取数据库，对数据库本身造成压力，影响性能。同时，保证了数据源的准确，正确。FlinkCDC原理方式一：通过查询来获取更新的数据。如查询数据
Kafka主题二三事慢一点，细一点 Kafka kafka 分布式
客户端如果订阅了多次主题，则以最后一次为主，例如consumer.subscribe(Arrays.asList(topic1));consumer.subscribe(Arrays.asList(topic2));则订阅的只有topic2。消费者订阅主题是支持正则表达式，这样如果有新topic上线，并且匹配正则，则也会消费到这个新topic的内容，比如consumer.subscribe(Pat
【大数据】Flink SQL 语法篇（五）：Regular Join、Interval Join G皮T #Flink SQL 大数据 flink sql Regular Join Interval Join 双流Join
《FlinkSQL语法篇》系列，共包含以下10篇文章：FlinkSQL语法篇（一）：CREATEFlinkSQL语法篇（二）：WITH、SELECT&WHERE、SELECTDISTINCTFlinkSQL语法篇（三）：窗口聚合（TUMBLE、HOP、SESSION、CUMULATE）FlinkSQL语法篇（四）：Group聚合、Over聚合FlinkSQL语法篇（五）：RegularJoin、I
有一点动心段duan
《有一点动心》是6月4日新上映的一部影片，在香山国际影城的支持下，与水姐观影群的伙伴们共同观看了这部影片。随着社会意识形态的不断变化，人们对感情的态度，也呈现出多元化的状态。爱情，自从人类诞生之日起，不论朝代如何更替变迁，都是生命的一大核心主题，演绎出无数个动人的故事，让经历者体验其中，让倾听者无比动容。从调查出来的大数据来看，适龄人群的不婚比例，是空前高的一个数字，越来越多的适婚人士，加入了不婚
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
挑战杯大数据商城人流数据分析与可视化 - python 大数据分析 laafeer python
0前言优质竞赛项目系列，今天要分享的是基于大数据的基站数据分析与可视化该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate课题背景随着当今个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手
Java开发从入门到精通（七）：Java的面向对象编程OOP：常用API HACKNOE Java开发从入门到精通 java intellij-idea
Java大数据开发和安全开发（一）Java的常用API1.1Object类1.1toString1.1equals方法1.1对象克隆clone1.1Objects类1.1包装类1.1StringBuilder1.1StringBuffer1.1StringJoiner1.1Math、System、Runtime1.1BigDecimal1.1传统时间：Date日期类、SimpleDateForma
linux安装单机版spark3.5.0 爱上雪茄大数据 JAVA知识 spark 大数据分布式
一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0三、spark环境变量配置exportJAVA_HOME=/usr/local/jdk1.8.0_391exportJRE_HOME=/usr/local/jdk1.8.0_391/jr
Kafka-SSL笔记整理 yicj kafka ssl 笔记
创建密钥仓库以及CA创建密匙仓库,用户存储证书文件keytool-keystoreserver.keystore.jks-aliashello_kafka-validity100000-genkey创建CAopensslreq-new-x509-keyoutca-key-outca-cert-days100000将生成的CA添加到客户端信任库keytool-keystoreclient.trust
Hadoop简介程序员小郭同学 hadoop
简介大数据简介概述大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
数大数据时代的关键：融合数据治理与AI为企业增值_光点科技光点数据治理人工智能大数据科技
在数据驱动的今天，企业不能再将数据治理和人工智能（AI）视作孤立的实体。它们之间的协同作用已经成为推动企业增长的强大引擎。本文将探索数据治理与AI如何相互作用，形成闭环，以及企业如何利用这一关系来提升数据价值，实现数字化转型。数据治理与AI的依存共生数据治理是整理和优化数据的过程，以确保其质量、安全性和可用性。而AI，尤其是大模型，是解析和应用这些数据的工具。没有高质量的数据治理，AI无法发挥其最
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST