居高声自远,非是藉秋风

ClickHouse原理解析与应用实践

ClickHouse架构概述

ClickHouse架构概述
一、OLAP的架构
二、OLAP技术的演进
- ROLAP
- MOLAP
- 搜索引擎
- CLickHouse
三、实时聚合还是预先聚合？
四、clickhouse适合的场景
五、ClickHuse不适合的场景
六、clickhouse的核心特性
七、clickhouse数据类型
- 基础数据类型
- - 数值型
  - - int
    - Float
    - Decimal
  - 字符串类型
  - - String
    - FixedString
    - UUID
  - 时间类型
  - - DateTime
    - Datetime64
    - Date
  - 复合类型
  - - Array
    - tuple
    - enum
    - nested
  - 特殊类型
  - - nullable
    - Domain
八、数据库
- Ordinary:默认引擎
- DIctionary 字典引擎
- Memory 内存引擎
- 日志引擎
- Mysql引擎
分区表
- 查询分区信息
- 删除分区
- 复制分区
数据写入
数据删除
视图
数据字典
- 内部字典
- 外部扩展字典
- name
- suructure
- - 键值key
  - attribute
- layout
- - flat
  - hashed
  - range_hashed
- source
- - 文件类型
  - 数据库类型
- lifetime
- - 定时更新
  - 实时更新
MergeTree原理解析
- 数据分区
- 数据TTL
- ReplacingMergeTree
- summingMergeTree
- AggregatingMergeTree
- CollapsingMergeTree
- VersionedCollapsingMergeTree
其他表引擎
- 外部存储类型
- - - hdfs
    - MySQL

一、OLAP的架构

1.ROLAP：
创建事实表维度表和指标表，使用关联的方式进行sql关联，优点是灵活，缺点是数据量大以后，查询压力很大
2.MOLAP
预计算方式，在查询前提前将聚合的结果进行预计算处理，使用空间换取时间，缺点：占用空间，会有2的n次方组合；优点：速度快
3.HOLAP
等于MOLAP+ROLAP

二、OLAP技术的演进

ROLAP

由最开始的MySQL、oracle演变成Hadoop生态体系的hive；以spark分布式计算引擎查询，响应速度还是很慢。

MOLAP

依托MapReduce和spark进行预计算，将数据结果存入HBASE等高性能分布式数据库。响应速度很快，但是存在维度爆炸，数据同步实时性问题。

搜索引擎

另辟蹊径，使用Elasticsearch搜索引擎来实现数据的聚合查询，在百万级数据的时候完全可以实现，但是数据量大后，力不从心。

CLickHouse

具有ROLAP、在线实时查询、完整的DBMS、列存储、不需要预计算、批量更新、完善的sql和函数支持、不需要Hadoop的生态，开箱即用、支持高可用。

三、实时聚合还是预先聚合？

预先聚合的问题：
预先聚合只能支持固定的分析场景，所以无法满足自定义分析的需求。
维表组合会导致数据膨胀，造成不必要的计算和存储开销。
实时数据是实时接收的，预计算还要考虑如何进行实时更新数据。
实时聚合：
实时聚合虽然是完美但是意味着一切计算都是要动态、实时的。很难做到在极短的时间内返回数据。

四、clickhouse适合的场景

在存储数据超过20万亿行的情况下，clickhouse能做到90%的查询在一秒内实现
随着数据量的正大，它的优势会更加明显。

五、ClickHuse不适合的场景

不支持事务
不擅长根据主键按着行粒度进行查询
不擅长删除数据

六、clickhouse的核心特性

列式存储和数据压缩
向量化执行引擎
关系模型和sql查询
多样化表引擎
多线程和分布式
多主架构
数据分片、分布式查询

七、clickhouse数据类型

基础数据类型

数值型

整数、浮点数、定点数

int

常见的int（tinyint、Samallint、Int、BigInt）
clickhouse中的int类型（Int8/Int16/Int32、Int64）

Clickhouse支持无符号的数据（UInt8、UInt16、Uint32、Uint64）

Float

常见是Float 代表单精度浮点数、double代表双精度浮点数
clickhouse（Float32、Float64）

Decimal

定点数
clickhouse（DEcimal132、Decimal164、Decimal1128）

字符串类型

String

代替传统的varchar、text、clob、Blob;string类型不限定字符集，可以存储任意编码，但是为了统一UTF-8约定

FixedString

类似Char、但是和char不同的是char通常是用空格填充、FixedString是用null字节填充

UUID

常见的数据类型，如果

时间类型

clickhouse目前没有时间戳类型，也就是最高精度是秒。如果想要毫秒、微妙只能借助Uint类型

DateTime

包含年月日时分秒，支持字符串的形式写入

Datetime64

可以纪录亚秒，比如‘2022-02-02 00:00:00.00’

Date

精确到天，支持字符串写入

复合类型

Array

同一类型
select array(1,2)

tuple

可以存储1到n个元素，允许不同的数据类型。

select tuple(-1,1,‘a’,now(),today()) as a ,toTypeName(a)
“(-1,1,‘a’,‘2023-03-13 09:44:43’,‘2023-03-13’)”,“Tuple(Int8, UInt8, String, DateTime, Date)”

定义表字段的时候，需要指明元素的类型，

create table tuple_test (
c1 Tuple(String,Int8)
) engine =Memory;
insert into tuple_test values ((‘a’,1))

主要是用来保障数据质量。

enum

主要是定义常量包含（enum8 /enum16）

create table enum_test (
c1 ENUM8(‘one’=1,‘two’=2)
) engine =Memory;
insert into enum_test values (‘one’)

如果新增没有的值会报错

enum 和String的区别是：enum可以使用value进行排序分组去重

nested

嵌套类型，只支持一层

create table nested_test (
name String,
age Int8,
dept Nested(
id String,
name String
)
) engine =Memory;

对于简单的层级关系和关联关系使用嵌套类型是不错的选择

insert into nested_test values (‘zs’,18,[‘dept1’,‘dept2’],[‘deptName1’,‘deptName2’]) ;

每个字段都是需要一个数组，每个数组个数要一致。
访问嵌套的类型

select dept.id

特殊类型

nullable

create table nested_test (
name Nullable(String),
age Int8
) engine =Memory;

是一个辅助的类型，需要和基础数据类型一起搭配使用。
只能和基础数据搭配使用，不能用于数组和元祖这些符合类型，也不能用在索引字段
nullable 会让查询和写入的性能变慢

Domain

域名类型分为IPv4和IPv6

八、数据库

create database if not exists db_test engine=Memory
数据库也支持引擎
五中引擎

Ordinary:默认引擎

在这个数据库下可以使用任意类型的表引擎

DIctionary 字典引擎

适用于一次写入多次读取，小于百万级别的小表

Memory 内存引擎

存放在内存中，服务重启后数据消失

日志引擎

Mysql引擎

会自动拉取MySQL的数据，并为他们创建MySQL引擎的数据表

分区表

数据分区，数据的一种纵向切分，借助数据分区跳过不必要的数据目录，从而提升查询的性能，还能变相的实现数据的更新操作。数据分区支持删除、替换和重置，假设按着月份分区，数据就可以按月份的粒度进行替换更新。
目前只有合并树（mergeTree）家族才支持数据分区。

create table db_test2.partition_table
(
id Int64 comment ‘主键’,
table_schema String comment ‘库名’,
etl_time datetime comment ‘时间’
) engine=MergeTree() partition by toYYYYMM(etl_time) order by id ;
select table,partition,path from system.parts where table=‘partition_table’;
SELECT * FROM partition_v1 WHERE EventTime =‘2019-05-01’

在后续的查询过程中，可以利用分区索引跳过6月份分区目录。

查询分区信息

select table,partition,path from system.parts where table=‘partition_table’;

删除分区

alter table partition_table drop partition 20190501

删除分区后再重新写入，可以达到更新的目的

复制分区

两张表的表结构完全一致的情况并且都有分区键可以复制分区

ALTER TABLE partition_v2 REPLACE PARTITION 201908 FROM partition_v1

数据写入

INSERT INTO partition_v2 VALUES (‘A0014’,toString(1+2), now())

INSERT INTO partition_v2 FORMAT CSV
‘A0017’,‘www.nauu.com’, ‘2019-10-01’
‘A0018’,‘www.nauu.com’, ‘2019-10-01’

数据删除

clickhouse有删除和修改的能力，但是不支持事务无法回滚，异步过程、很重的操作最好批量执行
删除

ALTER TABLE partition_v2 DELETE WHERE ID = ‘A003’

修改

ALTER TABLE partition_v2 DELETE WHERE ID = ‘A003’

视图

CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name] [ENGINE = engine] [POPULATE] AS SELECT

物化视图创建好之后，如果源表被写入新数据，那么物化视图也会同步更新。POPULATE修饰符决定了
物化视图的初始化策略：如果使用了POPULATE修饰符，那么在创建视图的过程中，会连带将源表中已存在
的数据一并导入，如同执行了SELECT INTO一般；反之，如果不使用POPULATE修饰符，那么物化视图在创
建之后是没有数据的，它只会同步在此之后被写入源表的数据。物化视图目前并不支持同步删除，如果在
源表中删除了数据，物化视图的数据仍会保留。

数据字典

数据会主动和被动加载到内存，并支持动态更新。字典数据常驻内存的特性，适合保存常亮和经常使用的维度表数据，避免不必要的join。

内部字典

不常用

外部扩展字典

载config.xml中会配置默认识别架子啊/et/clickhouse-server目录下所有_.dictionary.xml结尾的配置文件


*_dictionary.xml

完整的配置结构



dict_name

name

字典的名称，唯一标识，全局唯一

suructure

字典的数据结构



 或  -->



Id





...

数据结构是由键值key 和属性attribute组成，分别描述字典的数据标识和字段的属性。

键值key

数值型
使用ID配置，使用Uint64整数定义

Id

复合型使用tuple元组定义，类似数据库的复合主键



field1
String


field2
UInt64

省略…

attribute


Name
DataType


generateUUIDv4()
true
true
true

layout

字典的类型，决定了数据在内存中以什么结构组织和存储

flat

性能最高的字典类型，只能最多50万行数据。
完整的配置文件




test_flat_dict



/chbase/data/dictionaries /organization.csv
CSV








id


code
String



name
String




300
360

hashed

只能使用Uint64数值型key，但是没有上限

range_hashed

range_hashed字典可以看作hashed字典的变种，它在原有功能的基础上增加了指定时间区间的特性，数据会以散列结构存储并按照时排序。时间区间通过range_min和range_max元素指定，所指定的字段必须是Date或者DateTime类型。




test_range_hashed_dict


/chbase/data/dictionaries/sales.csv
CSV







id


start


end


price
Float32




300
360

查看字典

SELECT name, type, key, attribute.names, attribute.types FROM system.dictionaries

source

字典的数据源

文件类型

本地文件



/data/dictionaries/organization.csv
CSV

可执行文件



cat /data/dictionaries/organization.csv
CSV

远程文件



http://10.37.129.6/organization.csv
CSV

数据库类型

mysql



3306
root


10.37.129.2
1

test
t_organization


 

·port：数据库端口。
·user：数据库用户名。
·password：数据库密码。
·replica：数据库host地址，支持MySQL集群。
·db：database数据库。
·table：字典对应的数据表。
·where：查询table时的过滤条件，非必填项。
·invalidate_query：指定一条SQL语句，用于在数据更新时判断是否需要更新

clickhouse



10.37.129.6
9000
default

default
t_organization



其中，各配置项的含义分别如下。
·host：数据库host地址。
·port：数据库端口。
·user：数据库用户名。
·password：数据库密码。
·db：database数据库。
·table：字典对应的数据表。
·where：查询table时的过滤条件，非必填项。
·invalidate_query：指定一条SQL语句，用于在数据更新时判断是否需要更新，非

mongoDB



test_mongodb_dict



10.37.129.2
27017


test
t_organization

 省略…
其中，各配置项的含义分别如下。
·host：数据库host地址。
·port：数据库端口。
·user：数据库用户名。
·password：数据库密码。
·db：database数据库。
·collection：与字典对应的collection的名

lifetime

字典的更新频率，秒

定时更新


300
360

当都等于时禁止字典更新

当达到指定秒后，数据字典会进行更新。

实时更新

对于文件类型会判断文件的修改时间，对于MySQL对根据

select updatetime from t_organization where id = 8

进行判断，如果两次的时间不一致，会进行全量更新。

MergeTree原理解析

在绝大多数的场景中都会用到这个表引擎。
高性能：列存储、自定义分区、稀疏的主索引

CREATE TABLE [IF NOT EXISTS] [db_name.]table_name (
name1 [type] [DEFAULT|MATERIALIZED|ALIAS expr],
name2 [type] [DEFAULT|MATERIALIZED|ALIAS expr],
省略...
) ENGINE = MergeTree()
[PARTITION BY expr]
[ORDER BY expr]
[PRIMARY KEY expr]
[SAMPLE BY expr]
[SETTINGS name=value, 省略...]

（1）PARTITION BY [选填]：分区键，用于指定表数据以何种标
准进行分区。分区键既可以是单个列字段，也可以通过元组的形式使
用多个列字段，同时它也支持使用列表达式。如果不声明分区键，则
ClickHouse会生成一个名为all的分区。合理使用数据分区，可以有效
减少查询时数据文件的扫描范围，更多关于数据分区的细节会在6.2节
介绍。
（2）ORDER BY [必填]：排序键，用于指定在一个数据片段内，
数据以何种标准排序。默认情况下主键（PRIMARY KEY）与排序键相
同。排序键既可以是单个列字段，例如ORDER BY CounterID，也可以
通过元组的形式使用多个列字段，例如ORDER
BY（CounterID,EventDate）。当使用多个列字段排序时，以ORDER
BY（CounterID,EventDate）为例，在单个数据片段内，数据首先会以
CounterID排序，相同CounterID的数据再按EventDate排序。
（3）PRIMARY KEY [选填]：主键，顾名思义，声明后会依照主键
字段生成一级索引，用于加速表查询。默认情况下，主键与排序键
(ORDER BY)相同，所以通常直接使用ORDER BY代为指定主键，无须刻
意通过PRIMARY KEY声明。所以在一般情况下，在单个数据片段内，数
据与一级索引以相同的规则升序排列。与其他数据库不同，MergeTree
主键允许存在重复数据（ReplacingMergeTree可以去重）。

数据分区

MergeTree数据分区规则是由分区键值决定的。四种规则
（1）不指定分区键：如果不使用分区键，即不使用PARTITION BY
声明任何分区表达式，则分区ID默认取名为all，所有的数据都会被写
入这个all分区。
（2）使用整型：如果分区键取值属于整型（兼容UInt64，包括有
符号整型和无符号整型），且无法转换为日期类型YYYYMMDD格式，则
直接按照该整型的字符形式输出，作为分区ID的取值。
（3）使用日期类型：如果分区键取值属于日期类型，或者是能够
转换为YYYYMMDD格式的整型，则使用按照YYYYMMDD进行格式化后的字
符形式输出，并作为分区ID的取值。
（4）使用其他类型：如果分区键取值既不属于整型，也不属于日
期类型，例如String、Float等，则通过128位Hash算法取其Hash值作
为分区ID的取值。

数据TTL

数据的存活时间

ReplacingMergeTree

一定程度上可以去除重复数据
创建方式

ENGINE = ReplacingMergeTree(ver)
强制触发合并
optimize TABLE replace_table FINAL

（1）使用ORBER BY排序键作为判断重复数据的唯一键。
（2）只有在合并分区的时候才会触发删除重复数据的逻辑。
（3）以数据分区为单位删除重复数据。当分区合并时，同一分区
内的重复数据会被删除；不同分区之间的重复数据不会被删除。
（4）在进行数据去重时，因为分区内的数据已经基于ORBER BY进
行了排序，所以能够找到那些相邻的重复数据。
(5)版本号里面可以配置字段会根据字段保留最大值一条；不填是保留最后一条。

summingMergeTree

ENGINE = SummingMergeTree((col1,col2,…))

适用需求：只需要查询数据的汇总结果，不关心明细数据。
（1）用ORBER BY排序键作为聚合数据的条件Key。
（2）只有在合并分区的时候才会触发汇总的逻辑。
（3）以数据分区为单位来聚合数据。当分区合并时，同一数据分
区内聚合Key相同的数据会被合并汇总，而不同分区之间的数据则不会
被汇总。
（4）如果在定义引擎时指定了columns汇总列（非主键的数值类型
字段），则SUM汇总这些列字段；如果未指定，则聚合所有非主键的数
值类型字段。
（5）在进行数据汇总时，因为分区内的数据已经基于ORBER BY排
序，所以能够找到相邻且拥有相同聚合Key的数据。
（6）在汇总数据时，同一分区内，相同聚合Key的多行数据会合并
成一行。其中，汇总字段会进行SUM计算；对于那些非汇总字段，则会
使用第一行数据的取值。

AggregatingMergeTree

数据立方体的概念，是SummingMergeTree的升级版，可以自定义聚合方式。
通常搭配MergeTree底表搭配使用
先创建底表

CREATE TABLE agg_table_basic(
id String,
city String,
code String,
value UInt32
)ENGINE = MergeTree()
PARTITION BY city
ORDER BY (id,city)
然后创建固化视图
CREATE MATERIALIZED VIEW agg_view
ENGINE = AggregatingMergeTree()
PARTITION BY city
ORDER BY (id,city)
AS SELECT
id,
city,
uniqState(code) AS code,
sumState(value) AS value
FROM agg_table_basic
GROUP BY id, city
新增数据到底表
INSERT INTO TABLE agg_table_basic
VALUES('A000','wuhan','code1',100),('A000','wuhan','code2',200),('A000','zhuhai', 'code1',200)
数据会自动的同步到物化视图，并按照aggregatingMErgeTree引擎进行规则处理
查询数据
SELECT id, sumMerge(value), uniqMerge(code) FROM agg_view GROUP BY id, city

（1）用ORBER BY排序键作为聚合数据的条件Key。
（2）使用AggregateFunction字段类型定义聚合函数的类型以及聚合的字段。
（3）只有在合并分区的时候才会触发聚合计算的逻辑。
（4）以数据分区为单位来聚合数据。当分区合并时，同一数据分区内聚合Key相同的数据会被合并计算，而不同分区之间的数据则不会被计算。
（5）在进行数据计算时，因为分区内的数据已经基于ORBER BY排序，所以能够找到那些相邻且拥有相同聚合Key的数据。
（6）在聚合数据时，同一分区内，相同聚合Key的多行数据会合并成一行。对于那些非主键、非AggregateFunction类型字段，则会使用第一行数据的取值。
（7）AggregateFunction类型的字段使用二进制存储，在写入数据时，需要调用State函数；而在查询数据时，则需要调用相应的Merge函数。其中，*表示定义时使用的聚合函数。
（8）AggregatingMergeTree通常作为物化视图的表引擎，与普通MergeTree搭配使用

CollapsingMergeTree

支持增删的引擎，通过以增代删的思路进行行级别的修改和删除。定义一个sign标记位字段，如果数据航的状态是1标识是一条有效的数据；如果sign标记行是-1，标识数据需要被删除。
通过order by -1 和1 进行两两抵消，如果-1=1数量，这条数据消失。如果1>-1数量，修改操作保留1数据。
有个致命缺点是顺序不能乱，不能先-1在1

CREATE TABLE collpase_table(
id String,
code Int32,
create_time DateTime,
sign Int8
)ENGINE = CollapsingMergeTree(sign)
PARTITION BY toYYYYMM(create_time)
ORDER BY id

VersionedCollapsingMergeTree

创建方式

CREATE TABLE ver_collpase_table(
id String,
code Int32,
create_time DateTime,
sign Int8,
ver UInt8
)ENGINE = VersionedCollapsingMergeTree(sign,ver)
PARTITION BY toYYYYMM(create_time)
ORDER BY id

加入版本的控制，不在局限于写入的顺序

其他表引擎

外部存储类型

只负责元数据管理和数据查询，数据文件由外部系统提供

hdfs

创建方式

CREATE TABLE hdfs_table1(
id UInt32,
code String,
name String
)ENGINE = HDFS(‘hdfs://hdp1.nauu.com:8020/clickhouse/hdfs_table1’,‘CSV’)

format表示文件格式（指ClickHouse支持的文件格式，常见的有CSV、TSV
和JSON等）。
数据写入到clickhouse中后，同时会将数据以CSV的格式写到HDFS上，但是不支持是删除HDFS上文件。

MySQL

ENGINE = MySQL('host:port', 'database', 'table', 'user', 'password'[, replace_query, 'on_duplicate_clause'])
其中各参数的含义分别如下：
·host:port表示MySQL的地址和端口。
·database表示数据库的名称。
·table表示需要映射的表名称。
·user表示MySQL的用户名。
·password表示MySQL的密码。
·replace_query默认为0，对应MySQL的REPLACE INTO语法。如果将它设置为1，则会用REPLACE
INTO代替INSERT INTO。
·on_duplicate_clause默认为0，对应MySQL的ON DUPLICATE KEY语法。如果需要使用该设置，
则必须将replace_query设置成0。

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的:(clickHouse,clickhouse,大数据,hadoop)

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
zookeeper和hadoop
zookeeper操作连接zkCli.sh-server服务名称查看客户端指令helpZooKeeper-serverhost:portcmdargs statpath[watch] setpathdata[version] lspath[watch] delquota[-n|-b]path ls2path[watch] setAclpathacl setquot
Hadoop 之 ZooKeeper (一) devalone Hadoop Hadoop ZooKeeper Hbase Chubby znode
Hadoop之ZooKeeper本文介绍使用Hadoop的分布式协调服务构建通用的分布式应用——ZooKeeper。ZooKeeper是Hadoop分布式协调服务。写分布式应用是比较难的，主要是因为部分失败(partialfailure).当一条消息通过网络在两个节点间发送时，如果发生网络错误，发送者无法知道接受者是否接收到了这条消息。接收者可能在发生网络错误之前已经收到了这条消息，也可能没有收到
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
好用的酒店预订软件有哪些？酒店预订哪个软件便宜好项目高省
哪个酒店预订App更省钱？想要预订酒店却担心价格过高？试试这些超值的酒店预订App吧！【美团】：专注于三四线城市，性价比超高！经济型酒店最受欢迎，但用户忠诚度稍低。【飞猪】：阿里旗下平台，依托强大系统和大数据。受年轻人喜爱，但产品同质化较突出，需注意商家管控和用户纠纷解决。要领取优惠券，我们需要使用APP或者登录官方网站。在进入APP后，我们可以通过以下几种途径来获取内部优惠券。一、直返直返的口号
大数据量查询计算引发数据库CPU告警问题复盘懒虫虫~ 业务解决方案大表治理
大数据量查询计算引发数据库CPU告警问题复盘一、背景二、根因分析三、解决方案方案1：多线程+缓存方案2：利用中间表+缓存四、总结一、背景2025年7月份某天，CDP系统每天不定时推送我们的Portal服务，生产环境运营看板会展示统计数据，发现接口响应缓慢，随之而来数据库监控告警，发现数据库CPU达到了80%。由于表数据量大，计算统计复杂，多线程使用不当，导致数据库服务器爆表。其中A表数据量达到1亿
Elasticsearch－索引原理 ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
结婚纪念日是婚礼当天还是领证那天？？壹刻所闻
领证日子和结婚日子大部分都是分开的，所以很多新人弄清楚结婚纪念日是需要过领证那天还是举办婚礼那天。两个日子都会有人过，不过根据大数据显示，大部分的人选择的是举办婚礼的日子。一、结婚纪念日按领证还是婚礼1、领证结婚证纪念日是按领结婚证的那一天算的。只有领了结婚证，两人才是合法夫妻关系，才能受法律保护。而举办婚礼只不过是告诉双方的亲友两人结婚了，邀请双方的亲友一起吃了顿饭罢了，不具备法律效应。如果只是
这个“看不见的问题”，才是工业数据管理的终极难题 CSDN资讯 TDengine 大数据
在谈论#工业数据管理时，我们常常会听到“4V”这样的术语，而在#大数据领域，也有类似的版本，甚至扩展成了5V、6V、乃至8V。但一个问题随之而来：这些被广泛引用的数据特征，真的代表了用户的痛点吗？真的切中了工业企业在实际应用中最棘手的挑战吗？TDengine解决方案架构师陈展隆结合自己多年服务工业客户的经验，分享了他对这个问题的深入观察与思考。或许，我们该重新思考：数据管理的“用户”到底是谁？又是
99% 的 Python 开发者都不知道的 gzip 高级用法 coder_风逝 Python数据挖掘分析 python servlet 开发语言
前言：为什么数据压缩如此重要？在当今大数据时代，数据存储和传输成本已成为每个开发者必须考虑的问题。想象一下，当你需要处理日志文件、API响应或数据库备份时，原始数据往往占用大量空间。Python内置的gzip模块提供了一种简单高效的解决方案，可以轻松将数据压缩到原大小的1/3甚至更小！本文将带你深入掌握gzip的核心用法，让你的Python程序在处理大数据时如虎添翼。1.gzip模块基础介绍gzi
Python中的 filter() | 函数详解 2401_87650616 python 开发语言
目录前言一、基本概念基本语法二、使用方式1.使用lambda函数2.使用普通函数3.使用None过滤假值三、filter()与列表推导式对比1.filter()方式2.列表推导式方式3.选择建议四、常见应用场景1.过滤偶数2.过滤空字符串3.过滤None值4.过滤质数五、注意事项与最佳实践1.惰性求值：filter()返回的是迭代器，只在需要时计算，节省内存2.性能考虑：对于大数据集，filter
Java笔记--二维数组、冒泡排序、二分法我是小废物 intellij-idea java
一把刀的锋刃很不容易越过；因此智者说得救之道是困难的--印度《吠陀经》一、二维数组1、概念学校的班每个班有很多个学生，所以，可以用数组来存储，而我们又同时有很多个大数据班。这个也应该用一个数组来存储。如何来表示这样的数据呢?Java就提供*了二维数组供我们使用。由此可见：其实二维数组其实就是一个元素为一维数组的数组。2、格式（1）格式1：数据类型[][]变量名=new数据类型[m][n];m表示这
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h