AI智能探索者

聚类算法性能对比：K-means vs DBSCAN vs 层次聚类

关键词：聚类算法、K-means、DBSCAN、层次聚类、性能对比、机器学习、无监督学习

摘要：聚类是无监督学习的核心任务之一，广泛应用于用户分群、图像分割、异常检测等场景。本文将用“分水果”“找朋友”“建家谱”等生活化比喻，从原理、优缺点到实战场景，一步一步对比K-means、DBSCAN、层次聚类三种主流算法。无论你是刚入门的机器学习爱好者，还是需要为项目选择聚类方案的开发者，读完本文都能清晰掌握三种算法的差异与适用场景。

背景介绍

目的和范围

聚类的本质是“物以类聚”：从无标签数据中发现隐含的分组规律。本文聚焦三种最常用的聚类算法——K-means（最经典）、DBSCAN（抗噪声）、层次聚类（可视化强），通过原理拆解、代码实战、场景对比，帮你解决“选哪个”的核心问题。

预期读者

机器学习初学者：想理解聚类算法的底层逻辑
项目开发者：需要为实际数据选择合适的聚类方案
数据分析师：希望优化用户分群、异常检测等任务效果

文档结构概述

本文将按“原理→对比→实战→选型”的逻辑展开：先通过生活化故事讲清每个算法的核心思想，再用数学公式和代码揭示细节，最后通过真实数据集实战对比效果，最终总结选型指南。

术语表

无监督学习：从无标签数据中发现规律（类似“没有老师教，自己找规律”）
簇（Cluster）：聚类结果中的“组”（类似“分好的水果篮”）
质心（Centroid）：K-means中簇的“中心代表”（类似班级的“平均身高”）
密度（Density）：DBSCAN中数据点的“拥挤程度”（类似地铁早高峰的人群密度）
树状图（Dendrogram）：层次聚类的“家谱图”（类似家族的代际关系树）

核心概念与联系：用“分水果”“找朋友”“建家谱”理解聚类

故事引入：水果摊老板的分货难题

假设你是水果摊老板，需要把一车混装的苹果、橘子、香蕉分开。不同的分法对应不同的聚类算法：

K-means：先猜三个筐的位置（质心），把每个水果放进最近的筐，再根据筐里的水果调整筐的位置，重复直到筐不动（收敛）。
DBSCAN：找“拥挤”的水果堆——如果一个苹果周围50cm内有至少3个水果（核心点），就把附近所有能连到它的水果（密度可达）归为一堆，剩下的单独放（噪声）。
层次聚类：先把每个水果当独立堆，然后不断合并最近的两堆（或最远的、平均距离），直到只剩一堆，最后切一刀分成想要的簇数（类似画家谱，从单个成员合并成家族）。

核心概念解释（像给小学生讲故事）

核心概念一：K-means（质心驱动的“分筐游戏”）

K-means的核心是“选代表→分组→调整代表”。
比如分班级：老师先猜三个“平均身高代表”（质心），让每个同学站到离自己身高最近的代表旁边；然后重新计算这三组的平均身高（新质心），再让同学重新站队；重复直到代表位置不再变化，就分好了组。
关键规则：需要提前定簇数（K），每个点属于最近的质心，簇是圆形/球形（因为用欧氏距离）。

核心概念二：DBSCAN（密度驱动的“找朋友圈”）

DBSCAN的核心是“找密集区域，忽略稀疏点”。
比如在操场找朋友：设定“好朋友”条件——你周围2米内至少有3个同学（核心点），那么你和这3个同学是朋友；这3个同学周围2米内的其他同学（密度可达）也是朋友，最终形成一个“朋友圈”（簇）。剩下的落单同学（周围2米内不足3人）是“独行侠”（噪声点）。
关键规则：不需要提前定簇数，能发现任意形状的簇（比如月牙形、环形），但怕密度不均匀的数据。

核心概念三：层次聚类（结构驱动的“建家谱”）

层次聚类的核心是“从分到合，建家族树”。
比如家族聚会：一开始每个客人是独立的“小家庭”（簇）；然后找到关系最近的两家人（距离最小），合并成一个“大家庭”；重复合并直到所有人在一个家族里，形成一棵“家谱树”（树状图）。最后在树的某个位置切一刀，得到想要的簇数。
关键规则：不需要提前定簇数（可以后期切分），但计算量大（适合小数据），能展示簇间层次关系。

核心概念之间的关系（用“分水果”比喻）

三种算法像三种不同的分水果策略，区别在于“分组依据”和“适应场景”：

K-means vs DBSCAN：一个按“到中心的距离”分组（分筐），一个按“周围拥挤程度”分组（找朋友圈）。前者适合“均匀分布的圆堆水果”，后者适合“奇形怪状的水果堆”。
K-means vs 层次聚类：一个是“动态调整筐位置”的快速分法，一个是“先分后合建家谱”的慢分法。前者适合大数据，后者适合需要“看簇间关系”的小数据。
DBSCAN vs 层次聚类：一个“忽略落单水果”（抗噪声），一个“必须把所有水果放进家族”（无噪声处理）。前者适合数据有噪声的场景，后者适合需要完整结构的场景。

核心原理的文本示意图

K-means：初始化K个质心→分配点到最近质心→更新质心→重复直到收敛。
DBSCAN：遍历每个点→判断是否是核心点（半径eps内有≥min_samples点）→用BFS找所有密度可达点→剩余点为噪声。
层次聚类：计算所有点间距离→合并最近的两个簇→更新簇间距离→重复直到只剩一个簇→画树状图切分。

Mermaid 流程图

graph TD
    A[K-means流程] --> B[初始化K个质心]
    B --> C[每个点分配到最近质心的簇]
    C --> D[重新计算每个簇的质心]
    D --> E{质心是否变化?}
    E -->|是| C
    E -->|否| F[输出簇]

    G[DBSCAN流程] --> H[设定eps和min_samples]
    H --> I[遍历每个点,判断是否是核心点]
    I --> J[用BFS找所有密度可达的核心点和边界点]
    J --> K[剩余点标记为噪声]
    K --> L[输出簇和噪声]

    M[层次聚类流程] --> N[计算所有点间距离矩阵]
    N --> O[合并距离最小的两个簇]
    O --> P[更新距离矩阵（单/全/平均链接）]
    P --> Q{是否剩1个簇?}
    Q -->|否| O
    Q -->|是| R[画树状图,切分得到簇]

核心算法原理 & 具体操作步骤

1. K-means：用“质心迭代”找簇

数学模型

目标是最小化所有点到其所属簇质心的平方距离和（误差平方和，SSE）：
$\sum_{i=1}^{n} \sum_{j=1}^{K} I_{ij} \cdot ||x_i - \mu_j||^2$
其中：

( I_{ij} ) 是指示函数（若点( x_i )属于簇( j )则为1，否则为0）
( \mu_j ) 是簇( j )的质心（均值）

具体步骤（Python代码示例）

from sklearn.cluster import KMeans
import numpy as np

# 模拟数据：50个点，2维，分3簇
X = np.concatenate([
    np.random.normal(0, 0.5, (20, 2)),   # 簇1：均值(0,0)，标准差0.5
    np.random.normal(3, 0.5, (20, 2)),   # 簇2：均值(3,0)，标准差0.5
    np.random.normal(1.5, 0.5, (10, 2))  # 簇3：均值(1.5,3)，标准差0.5
])

# 初始化K-means（K=3）
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)  # 训练

# 输出结果
print("质心坐标：\n", kmeans.cluster_centers_)
print("每个点的簇标签：", kmeans.labels_)

关键参数：

n_clusters：必须提前指定的簇数K
init：质心初始化方式（默认k-means++，避免随机初始化的坏结果）
max_iter：最大迭代次数（默认300）

2. DBSCAN：用“密度可达”找簇

核心定义

核心点（Core Point）：在半径( \epsilon )（eps）内至少有( min_samples )个邻居的点。
边界点（Border Point）：在半径( \epsilon )内邻居数<( min_samples )，但能被某个核心点密度可达的点。
噪声点（Noise Point）：既不是核心点也不是边界点的点。

具体步骤（Python代码示例）

from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt

# 模拟数据：包含月牙形簇和噪声
from sklearn.datasets import make_moons
X, _ = make_moons(n_samples=200, noise=0.05, random_state=42)
# 添加10%噪声点（坐标在[-2, 5]随机）
noise = np.random.uniform(-2, 5, (20, 2))
X = np.concatenate([X, noise])

# 初始化DBSCAN（eps=0.3，min_samples=5）
dbscan = DBSCAN(eps=0.3, min_samples=5)
dbscan.fit(X)

# 输出结果
print("簇标签（-1为噪声）：", dbscan.labels_)
print("核心点索引：", dbscan.core_sample_indices_)

# 可视化（噪声点用灰色）
plt.scatter(X[:,0], X[:,1], c=dbscan.labels_, cmap='tab20', 
            edgecolor='k', s=50)
plt.title("DBSCAN聚类结果（噪声为灰色）")
plt.show()

关键参数：

eps：邻域半径（类似“朋友圈”的范围）
min_samples：邻域内最少点数（类似“至少需要几个朋友才算核心”）
metric：距离度量（默认欧氏距离，也可用曼哈顿、余弦等）

3. 层次聚类：用“树状图”建簇

核心距离度量

层次聚类的关键是定义“簇间距离”，常见方式：

单链接（Single Linkage）：两簇中最近两点的距离（易受噪声影响）
全链接（Complete Linkage）：两簇中最远两点的距离（易割裂大簇）
平均链接（Average Linkage）：两簇中所有点对的平均距离（平衡）

具体步骤（Python代码示例）

from sklearn.cluster import AgglomerativeClustering
from scipy.cluster.hierarchy import dendrogram, linkage
import matplotlib.pyplot as plt

# 模拟数据：3个簇，2维
X = np.concatenate([
    np.random.normal(0, 0.5, (20, 2)),   # 簇1
    np.random.normal(3, 0.5, (20, 2)),   # 簇2
    np.random.normal(6, 0.5, (20, 2))    # 簇3
])

# 计算链接矩阵（全链接）
Z = linkage(X, method='complete', metric='euclidean')

# 画树状图
plt.figure(figsize=(10, 5))
dendrogram(Z, truncate_mode='lastp', p=10, show_contracted=True)
plt.title("层次聚类树状图（全链接）")
plt.xlabel("数据点索引")
plt.ylabel("簇间距离")
plt.show()

# 用AgglomerativeClustering直接聚类（指定簇数3）
agg = AgglomerativeClustering(n_clusters=3, linkage='complete')
agg.fit(X)
print("簇标签：", agg.labels_)

关键参数：

linkage：簇间距离计算方式（单/全/平均链接）
n_clusters：可选（也可通过树状图动态选择）
distance_threshold：替代n_clusters，指定合并停止的距离阈值

数学模型对比：谁更“聪明”？

算法	核心数学目标	优点	缺点
K-means	最小化SSE（点到质心距离平方和）	计算快，适合大数据	需提前定K，只能找球形簇，怕噪声
DBSCAN	基于密度可达性划分区域	无需定K，抗噪声，任意形状簇	需调eps和min_samples，怕密度不均
层次聚类	基于簇间距离合并的树状结构	无需定K（可后期切分），展示层次关系	计算量大（O(n³)），怕大数据

项目实战：客户分群场景对比

背景与数据

某电商想将用户分为“高价值”“潜力”“普通”“流失”四组，用以下特征：

年消费金额（元）
年购买次数（次）
最近一次购买距今天数（R值）

数据特点：

10万用户（大数据）
存在少量异常用户（如年消费100万的超级VIP，或半年未购买的流失用户）
簇形状可能不规则（如“高价值”用户可能分布在“高消费+高频+近期购买”的狭长区域）

步骤1：数据预处理

import pandas as pd
from sklearn.preprocessing import StandardScaler

# 读取数据（模拟）
data = pd.read_csv("customer_data.csv")
# 特征标准化（K-means对尺度敏感）
scaler = StandardScaler()
X = scaler.fit_transform(data[['年消费金额', '年购买次数', '最近一次购买距今天数']])

步骤2：K-means实战

# 用手肘法选K（SSE最小化的拐点）
sse = []
for k in range(2, 10):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X)
    sse.append(kmeans.inertia_)  # inertia_是SSE

# 画手肘图
plt.plot(range(2, 10), sse, 'bo-')
plt.xlabel("K值")
plt.ylabel("SSE")
plt.title("手肘法选K值")
plt.show()  # 假设K=4是拐点

# 训练K=4的模型
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
data['kmeans_cluster'] = kmeans.labels_

结果分析：

优点：5分钟内处理10万数据，速度快
缺点：将“高价值”和“潜力”用户误分为同一簇（因簇是球形，无法拟合狭长区域），且将超级VIP标记为普通簇（质心被拉偏）

步骤3：DBSCAN实战

# 调参：用k-距离图找eps（k=min_samples-1）
from sklearn.neighbors import NearestNeighbors

neighbors = NearestNeighbors(n_neighbors=5)  # min_samples=5
neighbors_fit = neighbors.fit(X)
distances, _ = neighbors_fit.kneighbors(X)
distances = np.sort(distances, axis=0)[:, 4]  # 第5近的距离（索引4）

plt.plot(distances)
plt.xlabel("数据点排序")
plt.ylabel("第5近邻距离")
plt.title("k-距离图找eps")
plt.show()  # 假设eps=0.8是拐点

# 训练DBSCAN（min_samples=5，eps=0.8）
dbscan = DBSCAN(eps=0.8, min_samples=5)
dbscan.fit(X)
data['dbscan_cluster'] = dbscan.labels_  # -1是噪声（超级VIP可能被标记为噪声？）

结果分析：

优点：正确识别出狭长的“高价值”簇，将超级VIP标记为噪声（需人工确认是否为异常）
缺点：调参耗时（k-距离图需要经验），10万数据计算时间是K-means的10倍

步骤4：层次聚类实战

# 层次聚类适合小数据，取1000个样本（否则计算太慢）
sample_data = X[:1000]

# 训练（全链接，自动选簇数）
agg = AgglomerativeClustering(linkage='complete', distance_threshold=2, n_clusters=None)
agg.fit(sample_data)
data['agg_cluster'] = agg.labels_

# 画树状图辅助分析
Z = linkage(sample_data, method='complete')
plt.figure(figsize=(15, 5))
dendrogram(Z, truncate_mode='level', p=5)
plt.title("用户分群树状图")
plt.show()

结果分析：

优点：树状图清晰展示“流失用户→普通用户→潜力用户→高价值用户”的层次关系
缺点：1000样本计算耗时20分钟，无法处理10万全量数据

综合对比表

指标	K-means	DBSCAN	层次聚类
计算速度	快（O(nKIt)）	中（O(n²)优化后）	慢（O(n³)）
需提前定K	是（关键参数）	否	否（可后期切分）
处理噪声	敏感（噪声影响质心）	鲁棒（标记噪声为-1）	敏感（所有点必须成簇）
簇形状	仅球形/椭球形	任意形状（月牙形、环形）	取决于链接方式（单链接易狭长）
适用数据量	大（10万+）	中（1万-10万）	小（1千-1万）
可视化	仅簇中心（无层次）	无层次	树状图（层次清晰）

实际应用场景推荐

选K-means：数据量极大（10万+），簇是球形/椭球形，无明显噪声，且能通过手肘法确定K（如用户分群中的“高/中/低价值”简单分组）。
选DBSCAN：数据有噪声，簇形状不规则（如地理定位中的“商圈”划分），或需要自动识别异常点（如工业传感器的异常检测）。
选层次聚类：数据量小（1千-1万），需要展示簇间层次关系（如生物分类学的“界门纲目科属种”），或需要动态调整簇数（如市场细分的“大类→子类”分析）。

工具和资源推荐

Python库：scikit-learn（集成三种算法）、scipy.cluster.hierarchy（层次聚类增强）、hdbscan（DBSCAN改进版，自动调参）。
可视化工具：matplotlib（画簇分布）、seaborn（画轮廓系数图）、d3.js（交互式树状图）。
学习资源：
- 论文：《k-means++: The Advantages of Careful Seeding》（K-means优化）
- 教程：Scikit-learn官方文档“Clustering”章节（链接）
- 书籍：《统计学习方法》（李航）第14章“聚类方法”。

未来发展趋势与挑战

高维数据聚类：传统算法在高维（如1000维的文本特征）下效果差，需结合降维（如PCA、t-SNE）或子空间聚类。
流数据聚类：实时数据流（如电商实时用户行为）需要增量更新的聚类算法（如CluStream、DenStream）。
与深度学习结合：深度聚类（Deep Clustering）用神经网络提取特征后再聚类（如DEC、IDECC），提升复杂数据的聚类效果。

总结：学到了什么？

核心概念回顾

K-means：质心驱动，适合球形簇、大数据，需提前定K。
DBSCAN：密度驱动，适合任意形状、有噪声的数据，需调eps和min_samples。
层次聚类：结构驱动，适合小数据，展示层次关系，计算量大。

概念关系回顾

三种算法的差异本质是“分组依据”的不同：K-means看“到中心的距离”，DBSCAN看“周围的密度”，层次聚类看“簇间的距离”。选择时需结合数据量、噪声、簇形状、是否需要层次结构四大因素。

思考题：动动小脑筋

如果你要对“电商用户的购买行为”聚类，数据包含100万用户，且存在大量“只浏览不购买”的噪声用户，你会选哪种算法？为什么？
假设你有一组二维数据，簇形状是两个嵌套的圆环（类似靶心），K-means和DBSCAN谁能更好地识别？为什么？
层次聚类的树状图中，“合并距离”越大说明什么？如果想得到更多的簇，应该在树状图的“高层”还是“低层”切分？

附录：常见问题与解答

Q1：K-means为什么用平方误差（SSE）而不是绝对误差？
A：平方误差是凸函数，容易用梯度下降优化；绝对误差的导数不连续，优化更难。此外，平方误差对离群点更敏感（这也是K-means怕噪声的原因）。

Q2：DBSCAN的eps和min_samples如何调参？
A：常用方法是画k-距离图（k=min_samples-1），找曲线的“拐点”作为eps。例如min_samples=5时，计算每个点的第4近邻距离，排序后找突然上升的位置，对应eps。

Q3：层次聚类的“单链接”为什么容易形成链状簇？
A：单链接用两簇的最近点距离，容易被“桥梁点”（连接两个簇的孤立点）误导，导致合并本不相关的簇，形成长链。

扩展阅读 & 参考资料

《Pattern Recognition and Machine Learning》（Christopher M. Bishop）第9章“Mixture Models and EM”（K-means理论基础）。
《A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise》（DBSCAN原始论文）。
《Hierarchical Grouping to Optimize an Objective Function》（层次聚类经典论文）。
Scikit-learn官方文档：Clustering Guide。

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

聚类算法性能对比：K-means vs DBSCAN vs 层次聚类