Jangtall

数据仓库与数据挖掘知识点梳理

一：数据挖掘

1：什么是数据挖掘

数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
----简单的说，数据挖掘就是从大量的数据中发现有用信息的过程

数据的丰富带来了对强有力的数据分析工具的需求：

解决办法：数据仓库技术和数据挖掘技术
数据仓库和联机分析处理技术（存储）
数据挖掘：在大量的数据中挖掘感兴趣的知识/规则/规律/模式/约束（分析）。

注意事项：

早期的数据库主要支持联机事务处理

数据仓库用于决策分析，并不是所谓的大型数据库。
—数据仓库的数据是大量数据库的集成。

数据库用于事务处理，数据仓库用于决策分析

2：数据挖掘的功能

关联分析（描述）：反映一个事件和其他事件之间依赖或关联的知识。

聚类分析（描述）：物以类聚，人以群分

分类（预测）：反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。
------注：聚类是一种无指导的观察式学习，没有预先定义的类；而分类问题是有指导的示例式学习，有预先定义的类。

孤立点分析（预测）：

1.关联分析（描述）	反映一个事件和其他事件之间依赖或关联的知识
2.聚类分析（描述）	物以类聚，人以群分
3.分类（预测）	反映同类事物共同性质的特征型知识和不同事物之间的差
4.孤立点分析（预测）	对差异和极端特例的描述

数据库	事务型（操作型）数据处理
数据仓库	分析型数据处理
数据挖掘	知识发现

二：数据仓库

1：什么是数据仓库

数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。
数据仓库之父：William H.Inmon
严格定义：
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策过程.—W.H.Inmon

2：数据仓库的作用

存储经过加工处理的决策需要的数据

查询和决策分析的依据

3：数据仓库的关键特征

面相主题的：
数据仓库中所有数据都是围绕某一主题组织、展开的

集成的：
一个数据仓库是通过集成多个异种数据源来构造的

不容易丢失的（非易失的）：
只进行两种数据访问：
数据的初始装载；
查询操作

随时间而变化的（时变的）：
从历史的角度提供信息

4：数据仓库与数据挖掘的区别

数据仓库：是一种存储技术，它能适应于不同用户提供对不同决策需要所需的数据和信息。
数据挖掘：是一种分析技术，研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。

注：数据仓库并不是数据挖掘的必要条件

三：数据立方体

数据仓库和OLAP工具是基于多维数据模型的。在多维数据模型中，数据以数据立方体(data cube)的形式存在。

尽管我们经常把数据立方体看作3-D几何结构，但实际上，在数据仓库中，数据立方体是n-D的

3-D的数据立方体可以以2-D的数据表的序列表示

1.概念分层

单个维度的角度考察

在数据仓库中，一个概念分层（concept hierarchy）定义一个映射序列，将低层概念映射到更一般的高层概念。

对于一个给定的属性或维，根据不同的用户视图，可能有多个概念层次：如，表示location的概念：城市省份国家洲；

2.方体的格

给定一个维的集合，将在不同汇总级别上给出的数据立方体称为方体的格。

每个方体的格都在不同的汇总级或不同的数据子集显示数据。

0维方体存放最高层的汇总，称作顶点方体（如总销售dollars-sold）；而存放最底层汇总的方体则称为基本方体（如图2所示的4维基本方体）。

3.数据仓库的三级模型

（1）概念模型：
从客观世界到主观认识的映射；
首先将现实世界抽象为概念模型，然后再用适合计算机世界的模型和语言来描述。
（2）逻辑模型：
逻辑模型描述了数据仓库主题的逻辑实现.
（3）物理模型
逻辑模型在数据仓库中的实现，如数据存储结构、存储策略、索引策略、存储分配优化等。

一：概念模型

数据仓库用“信息包图”表示概念模型。

一个信息包图生成一个事实表。

度量表示事实与指标。

二：逻辑模型

是数据仓库数据模型的第二层；

通常有三种逻辑模型表示法：
星型模型：事实表在中心，周围围绕地连接着维表（每维一个）。
------（一个事实表）
雪花模型：是星型模型的变种。
--------（一个事实表）
事实星座模型：复杂的应用（如多主题的数据仓库）可能需要多个事实表共享维表。
--------（针对两个会两个以上的数据仓库）

几个基本概念：
维和维表：

维：关于一个组织想要记录的视角或观点。

维表：每个维都有一个表与之相关联

事实和事实表：

事实：指的是一些数字度量

事实表：包括事实的名称或度量，以及每个相关维表的关键字。

三：物理模型
是逻辑模型在数据仓库中的实现；
主要进行：数据存储结构、存储策略、索引策略、存储分配优化等工作。

有两种常见的存储结构：
1）分布式存储；
2）集中式存储。

四：OLAP

1. OLAP的基本概念？

定义：联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。

60年代，关系数据库之父E.F.Codd提出了关系模型，促进了联机事务处理（OLTP）的发展。
多维数据库和多维分析的概念，即OLAP

2.OLAP与OLTP

OLTP ：是传统的关系型数据库的主要应用，包括记录实时的增、删、改、查，主要是面向基本的、日常的事务处理
OLAP：是数据仓库的主要应用，支持复杂的分析操作，侧重决策支持

3.OLAP的特性

1.快速性：用户对OLAP的快速反应能力有很高的要求。
2.可分析性：OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
3.多维性：系统必须提供对数据的多维视图和分析。
4.信息性：OLAP系统应能及时获得信息，并且管理大容量信息。

4.OLAP的分析方法

切片（Slice）
从多维数组选定一个二维子集，切出一个“平面”

切块（Dice）
从多维数组选定一个三维子集，切出一个“立方体”

旋转（Rotate）
改变一个报告（或页面）显示的维方向

钻取(Drill)
根据维层次，改变数据的粒度，在单个维上进行

基本概念：

维：是人们观察数据的特定角度，是考察问题时的一类属性，属性集合构成一个维（时间维、地理维等）。
维的层次：人们观察数据的某个特定角度（即某个维），还可以存在细节程度不同的各个描述方面（时间维：日期、月份、季度、年）。
维的成员：维的一个取值。是数据项在某维中位置的描述。（“某年某月某日”是在时间维上位置的描述）
多维数组：维和变量的组合表示。一个多维数组可以表示为（维1，维2，…，维n，变量）。（时间，地区，产品，销售额）
数据单元（单元格）：多维数组的取值。（2000年1月，上海，笔记本电脑，￥10000）

五：数据预处理

1.脏数据分类：

杂乱性：如命名规则的不同

重复性：同一客观事物在数据库中存在两个以上相同的物理描述。

不完整性：由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素，数据记录可能会出现数据值的丢失或不确定。

噪声数据：数据中存在着错误或异常（偏离期望值）

2.数据预处理的常见方法

数据清理（清洗）
----去掉数据中的噪声，纠正不一致

数据集成
-----将多个数据源合并成一致的数据存储，构成一个完整的数据集，如数据仓库。

数据变换（转换）
-----将一种格式的数据转换为另一格式的数据(如规范化)

数据归约（消减）
----通过聚集、删除冗余属性或聚类等方法来压缩数据。

2.1数据清理

2.1.1空缺值的处理

1）忽略该元组
2）人工填写空缺值
3）使用属性的平均值填充空缺值
4）使用与给定元组属同一类的所有样本的平均值
5）使用一个全局变量填充空缺值
6）使用最可能的值填充空缺值

2.1.2噪声数据的处理

1）分箱方法

先排序，再分箱

等深分箱

等宽分箱

可以按箱的平均值、按箱中值或者按箱的边界等进行平滑。

2）聚类方法

通过聚类分析查找孤立点，消除噪声

3）线性回归

发现两个相关的变量之间的变化模式，利用回归分析方法所获得的拟合函数，帮助平滑数据及除去噪声。

4）人机结合共同检测

计算机检测可疑数据，然后对它们进行人工判断

2.1.3不一致数据的处理

人工更正

利用知识工程工具

数据字典

2.2数据集成和变换

2.2.1数据集成

数据集成
将多个数据源中的数据整合到一个一致的存储中。
这些源可以是关系型数据库、数据立方体或一般文件。
它需要统一原始数据中的所有矛盾之处，如字段的:

同名异义；

异名同义；

单位不统一；

字长不一致等。

注意问题：

模式匹配问题；

冗余问题；

数据值冲突问题。

2.2.2数据变换

平滑处理：从数据中消除噪声；
聚集操作：对数据进行综合；
数据规范化：将数据转换到一个较小的范围之内；

2.2.2.1规范化方法

最小-最大规范化；

零-均值规范化（z-score规范化）；

小数定标规范化。

2.2.2.1 最小—最大规范化

假定minA和maxA分别为属性A的最小和最大值，则通过下面公式将A的值映射到区间[new_min, new_max]中的v’：

假定属性income的最小与最大值分别为$12000和$98000，可根据最小—最大规范化方法将其范围映射到[0,1]：
如：
属性值$73600将变换为：
[(73600-12000)/(98000-12000)]*(1-0)+0=0.716

2.2.2.2 z-score规范化（零均值规范化）

将属性A的值根据其平均值和标准差进行规范化；
常用于属性最大值与最小值未知，或使用最小最大规范化方法会出现异常数据的情况。

其中，meanA、standard-devA分别为属性A取值的均值和标准差。
例：
假定属性income的平均值与标准差分别为$54000和$16000，使用z-score规范化，则属性值$73600将变换为：
(73600-54000）/16000=1.225

2.2.2.3 小数定标规范化

通过移动属性A的小数点位置进行规范化，小数点的移动依赖于A的最大绝对值

其中，j是使 Max(| v’ |)<1的最小整数
例：
假定A的取值范围[-986, 917]，则A的最大绝对值为986，为使用小数定标规范化，用1000（即j=3）除每个值，这样-986被规范化为-0.986。

2.2.3数据规约

数据立方体聚集；

维归约；
主要用于检测并删除不相关、弱相关或冗余的属性维
最常用的方法：属性子集选择。
1)逐步向前选择 (选好的)
2）逐步向后删除（删差的）
3）向前选择和向后删除的结合（1+2）
4）判定树归纳
在判定树的每个节点，算法选择“最好”的属性，将数据划分成类。
当判定树归纳用于属性子集选择时，不出现在树中的所有属性假定是不相关的；出现在判定树中的属性形成归约后的属性子集。

数据离散化。
标称型（名称型、名义型）：数值来自于无序集合，如性别、地名、人名等。
序数型：数值来自于有序集合，如奖学金的等级；职称分布等。
连续型：实数值，如温度、体重等。

2.2.3.1离散化方法

1）分箱：属性的值可以通过将其分配到各分箱中而将其离散化。
利用每个分箱的均值或中数替换每个分箱中的值（利用均值或中数进行平滑）。
2）基于熵的离散化：通过信息熵度量，实现离散化
3）通过自然划分分段：3-4-5自然划分分段法
4）聚类：聚类算法可以将数据集划分为若干类或组，每个类构成概念层次树的一个节点；每个类还可以进一步分解为若干子类，从而构成更低水平的层次。

2.2.3.2基于熵的离散化

考虑类别信息，递归计算信息熵，产生分层的离散化。

初始不确定性：

I(S)=

给定一个数据元组的集合S，基于熵对S离散化的方法如下：
1）属性A中的每个取值可被认为是一个潜在的区间边界或阈值T。例如，A的取值v可以将样本S划分为分别满足A 2）对于数据集S，根据所划分子集而获得的最大熵增益来选择阈值，划分后数据集S提供的信息如下：

学习属性A之后的不确定性：

E(A)=

其中S1和S2分别对应于S中满足条件：A
其中pi为类i在S1中出现的概率，等于S1中类i的样本除以S1中样本的总行数。同理，计算Ent(S2)。
3）确定阈值的过程递归的用于所得到的每个划分，直到满足某个终止条件，如：

信息增益不能低于δ：

Ent(S)-I(S,T) ≤δ

2.2.3.3自然划分分段

将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。
聚类分析产生的概念分层可能会将一个工资区间划分为：[51263.98, 60872.34]
而通常数据分析人员希望看到划分的形式为[50000，60000]
自然划分的3-4-5规则常可以将数值数据划分为相对一致和“自然”的区间。一般的，根据最重要的数字上的值区域，递归的和逐层的将给定的数据区域划分为3、4或5个等宽区间。
规则的划分步骤：
如果一个区间最高有效位上跨越3，6，7或9个不同的值，就将该区间划分为3个等宽子区间；(7->2,3,2)
如果一个区间最高有效位上跨越2，4，或8个不同的值，就将该区间划分为4个等宽子区间；
如果一个区间最高有效位上跨越1，5，或10个不同的值，就将该区间划分为5个等宽子区间；
将该规则递归的应用于每个子区间，产生给定数值属性的概念分层；
规则的划分步骤：
对于数据集中出现的最大值和最小值的极端分布，为了避免上述方法出现的结果扭曲，可以在顶层分段时，选用一个大部分的概率空间。e.g. 5%-95%
例如，在资产数据集中，少数人的资产可能比其他人高几个数量级。如果按照最高资产值进行分段，可能导致高度倾斜的分层。此时，可以在顶层分段时，选用一个大部分的概率空间。e.g. 5%-95%。
越出顶层分段的特别高和特别低的部分采用类似的规则划分方法形成单独的区间。
假定AllElectronics所有分部1999年的利润覆盖了一个很宽的区间，从-351.00$ 到4700$。要求利用3-4-5规则自动构造利润属性的一个概念层次树。

例子：

思路：
设在上述范围取值为5%至95%的区间为：-159$ 至1838$ 。应用3-4-5规则的具体步骤如下：
1）根据以上信息，在利润数据集中最小和最大值分别为：MIN=-351$ , MAX=4700$ 。而根据以上分析，对于分段的顶层或第一层，要考虑的最低（5%）和最高（95%）的值是：LOW=-159$ , HIGH=1838$ 。
2）依据LOW和HIGH及其取值范围，确定最高有效位为1000$ ，LOW按1000$ 美元向下取整，得到LOW’=-1000$ ； HIGH按1000$ 向上取整，得到：HIGH’=2000$ 。
3）由于该区间在最高有效位上跨越了3个值，即(2000-(-1000))/1000=3，根据3-4-5规则，该区间被划分成3个等宽区间：(-1000$ ,0], (0, 1000$ ], (1000$ ,2000$ ]。这代表分层结构的最顶层。
4）现在，考察原数据集中MIN和MAX值与最高层区间的联系。由于MIN值落在区间(-1000$ ,0]，因此调整左边界，对MIN取整后的-400$ ，所以第一个区间调整为(-400$ ,0]。
而由于MAX值不在最后一个区间 (1000$ ,2000$ ]中，因此需新建一个区间（最右边区间）。对MAX取整后得5000$ ，因此新区间为(2000$ ,5000]。
因此最终，概念树分层结构的最顶层包含4个区间：(-400$ ,0], (0,1000$ ],(1000$ ,2000$ ], (2000$ ,5000$ ]。
5）对上述每个区间递归应用3-4-5规则，形成分层结构的下一个较低层：
第一个区间(-400$ ,0]：划分为4个子区间(-400$ ,-300$ ], (-300$ ,-200$ ], (-200$ ,-100$ ] , (-100$ ,0$ ].
第二个区间(0$ ,1000$ ]：划分为5个子区间(0$ ,200$ ], (200$ ,400$ ], 400$ ,600$ ], (600$ ,800$ ], (800$ ,1000$ ].
第三个区间(1000$ ,2000$ ]：划分为5个子区间(1000$ ,1200$ ], (1200$ ,1400$ ], 1400$ ,1600$ ], (1600$ ,1800$ ], (1800$ ,2000$ ].
第四个区间(2000$ ,5000$ ] ：划分为3个子区间(2000$ ,3000$ ], (3000$ ,4000$ ], (4000$ ,5000$]。
类似的，如有必要，3-4-5规则可继续在较低的层次上迭代。

什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
前端数据库：IndexedDB从基础到高级使用指南
文章目录前端数据库：IndexedDB从基础到高级使用指南引言一、IndexedDB概述1.1什么是IndexedDB1.2与其他存储方案的比较二、基础使用2.1打开/创建数据库2.2基本CRUD操作添加数据读取数据更新数据删除数据三、高级特性3.1复杂查询与游标3.2事务高级用法3.3性能优化技巧四、实战案例：构建离线优先的待办事项应用4.1数据库设计4.2同步策略实现五、常见问题与解决方案5.
修改gitlab默认的语言 Victor刘 gitlab
文章目录网上的方法1.采用数据库触发器的方法2.登录pg库2.1查看表2.2创建function2.3创建触发器2.4修改历史数据网上的方法网上修改/opt/gitlab/embedded/service/gitlab-rails/config/application.rb的方法，我试了，没生效，没进一步研究1.采用数据库触发器的方法2.登录pg库su-gitlab-psqlpsql-h/var/
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和运行 Redis 服务器山岚的运维笔记 Linux 运维及使用 linux 服务器 ubuntu redis 数据库
Redis（RemoteDictionaryServer，远程字典服务器）是一种内存数据结构存储，通常用作NoSQL数据库、缓存和消息代理。它是开源的，因此用户可以免费安装，无需支付任何费用。Redis旨在为需要快速数据访问和低延迟的应用程序提供速度和效率。Redis支持多种数据类型，包括字符串（Strings）、列表（Lists）、集合（Sets）、哈希（Hashes）、有序集合（SortedS
数据库基础概念梳理 22:30Plane-Moon 数据库
1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
【Druid】学习笔记 fixAllenSun 学习笔记 oracle
【Druid】学习笔记【一】简介【1】简介【2】数据库连接池（1）能解决的问题（2）使用数据库连接池的好处【3】监控（1）监控信息采集的StatFilter（2）监控不影响性能（3）SQL参数化合并监控（4）执行次数、返回行数、更新行数和并发监控（5）慢查监控（6）Exception监控（7）区间分布（8）内置监控DEMO【4】Druid基本配置参数介绍【5】Druid相比于其他数据库连接池的优点
构建高效的物流车辆定位管理系统体制教科书
本文还有配套的精品资源，点击获取简介：物流车辆定位管理系统利用信息技术提高物流效率和安全性。通过集成GPS技术进行实时车辆追踪和监控，它提供及时的货物运送和异常处理。系统的关键技术包括GPS车辆定位、C#编程语言、数据库管理、车辆管理、在途情况监控、预警与通知、数据分析与报告、用户界面设计、安全性与隐私保护以及系统集成。这些要素共同保障物流流程的高效、安全和智能化。1.物流车辆定位管理系统的应用与
Spring AI Alibaba 快速入门指南（适合初学者）会飞的架狗师 AI spring 人工智能 java
如果你是刚接触AI开发或Spring框架的初学者，不用担心，本指南会用简单易懂的语言带你一步步了解并使用SpringAIAlibaba。一、什么是SpringAIAlibaba（小白也能懂）简单来说，SpringAIAlibaba就是一个“工具包”，它把阿里巴巴的AI技术（比如通义千问大模型、向量数据库等）和大家常用的Spring框架“打包”到了一起。**打个比方：**就像你想做蛋糕（开发AI应用
Java朴实无华按天计划从入门到实战（强化速战版-66天）岫珩 Java 后端 java 开发语言学习 Java 时间安排学习计划
致敬读者感谢阅读笑口常开生日快乐⬛早点睡觉博主相关博主信息博客首页专栏推荐活动信息文章目录Java朴实无华按天计划从入门到实战（强化速战版-66天）1.基础（18）1.1JavaSE核心（5天）1.2数据库与SQL（5天）1.3前端基础（8天）2.进阶（17天）2.1JavaWeb核心（5天）2.2Mybatis与Spring全家桶（6天）2.3中间件入门（4天）2.4实践项目（2天）3.高阶（1
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
小白学习mysql 阿什么名字不会重复呢 mysql 数据库大数据人工智能
推荐自学网站不用下载本地环境带自测头歌https://www.educoder.net✅适合基础小白的MySQL简单实用学习计划总学习时间建议：10~14天，每天1小时左右即可最终目标：掌握基础SQL操作，能完成简单项目需求第1阶段：认识数据库与环境搭建（1~2天）你需要学会：•数据库是什么？SQL是什么？•安装MySQLServer+Navicat（推荐用Navicat可视化工具）✅推荐学习内容
Navicat 全面支持金仓数据库 KingbaseES，为金仓生态圈注入新动能 Navicat中国 Navicat 17 焕新上市 Navicat 免费版数据库
近日，我们宣布Navicat系列产品全面支持中电科金仓（北京）科技股份有限公司旗下金仓数据库管理系统KingbaseES。KingbaseES是面向全行业、全客户关键应用的企业级大型通用融合数据库产品，适用于事务处理类应用、数据分析类应用、海量时序数据采集检索类应用、要求苛刻的互联网等应用场景。这次合作，不仅是Navicat在数据库管理领域的又一重要里程碑，更凭借卓越的技术为金仓数据库的生态注入新
MYSQL：MySQL 事务隔离级别详解奋斗的狍子007 MySQL核心知识点 mysql 数据库 java spring 架构 spring boot ide
一、MySQL事务是什么？ MySQL事务是一组在数据库中执行的操作，这些操作要么全部成功执行，要么全部不执行，以确保数据库的完整性和一致性。事务的ACID 事务具有四个特征：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持续性（Durability）。这四个特性简称为ACID特性。原子性：事务是数据库的逻辑工作单位，事务中包含的各操作要么都做，
免费版 Navicat Premium Lite 17 下载和使用曼巴不黑数据库 navicat navicat免费
>>>>>>下载地址以后不需要再为使用Navicat大费周章了，官网已经提供免费版供个人和初创企业使用，认准NavicatPremiumLite。NavicatPremiumLite是Navicat的精简版，它包含了用户执行主要的基本数据库操作所需的核心功能。它允许你同时连接到各种数据库平台，包括MySQL、PostgreSQL、SQLServer、Oracle、MariaDB、Snowflake
Navicat Premium 17.1 的详细使用教程春云资源 mysql
下载地址：NavicatPremium17.1最新官方版|春云资源#NavicatPremium17.1功能全解析与使用教程指南在当今数字化的时代，数据库管理的高效性与便捷性成为众多企业和开发者追求的目标。NavicatPremium17.1作为一款备受瞩目的数据库管理工具，以其强大的功能和友好的用户界面脱颖而出。以下将为您详细介绍其使用方法，助力您轻松驾驭数据库管理工作。##一、下载与安装流程开
Navicat Premium for Mac 17.1.10 版本重置方案解析岑铭恩
NavicatPremiumforMac17.1.10版本重置方案解析背景介绍NavicatPremium是一款广受欢迎的数据库管理工具，其Mac版本在17.1.10版本中采用了新的授权验证机制。许多用户在试用期结束后需要重置试用期，但发现传统的重置方法不再适用。本文将深入分析该版本的重置原理和具体操作方案。技术原理分析NavicatPremium17.1.10forMac版本将授权信息存储在用户
TiDB - 分布式数据库的架构与特性爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：TiDB是一个开源的分布式NewSQL数据库，受到了Google的Spanner/F1系统的启发。它提供水平扩展和强一致性事务，适用于需要高可用性和大规模数据处理的场景。TiDB的核心特点包括其分布式架构，由TiDBServer（SQL层）、PDServer（调度器）和TiKVServer（存储引擎）组成；支持无缝的水平扩展和ACID事务；与MySQL高度兼容
MySQL 数据类型详解 yimeixiaolangzai MySQL mysql 数据库
在数据库设计和开发中，选择合适的数据类型对于存储和操作数据至关重要。MySQL提供了丰富的数据类型来满足不同的数据存储需求，这些数据类型可以分为数值类型、字符串类型、日期和时间类型，以及二进制类型。本文将详细介绍MySQL中的各类数据类型及其应用场景，帮助你更好地进行数据库设计。1.数值类型数值类型用于存储整数和浮点数，在处理数值运算时，这些数据类型扮演着关键角色。MySQL提供了多种数值类型，以
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

数据仓库与数据挖掘知识点梳理

数据仓库与数据挖掘知识点梳理

一：数据挖掘

1：什么是数据挖掘

2：数据挖掘的功能

二：数据仓库

1：什么是数据仓库

2：数据仓库的作用

3：数据仓库的关键特征

4：数据仓库与数据挖掘的区别

三：数据立方体

1.概念分层

2.方体的格

3.数据仓库的三级模型

四：OLAP

1. OLAP的基本概念？

2.OLAP与OLTP

3.OLAP的特性

4.OLAP的分析方法

五：数据预处理

1.脏数据分类：

2.数据预处理的常见方法

2.1数据清理

2.1.1空缺值的处理

2.1.2噪声数据的处理

2.1.3不一致数据的处理

2.2数据集成和变换

2.2.1数据集成

2.2.2数据变换

2.2.2.1规范化方法

2.2.2.1 最小—最大规范化

2.2.2.2 z-score规范化（零均值规范化）

2.2.2.3 小数定标规范化

2.2.3数据规约

2.2.3.1离散化方法

2.2.3.2基于熵的离散化

2.2.3.3自然划分分段

你可能感兴趣的:(数据挖掘,数据仓库,数据库)