AIGC应用创新大全

聚类算法参数调优指南：如何获得最佳分组效果

关键词：聚类算法、参数调优、K-means、DBSCAN、轮廓系数、Calinski-Harabasz、高维数据

摘要：聚类算法是无监督学习的核心工具，广泛用于用户分群、图像分割、异常检测等场景。但很多人发现：即使选对了算法，参数设置不当也会导致“分组混乱”或“簇无意义”。本文将用“分糖果”“找人群”等生活案例，结合Python代码实战，从底层逻辑到调优技巧，手把手教你为K-means、DBSCAN等主流算法调参，彻底解决“分组效果差”的痛点。

背景介绍

目的和范围

你是否遇到过这样的场景？用K-means得到的簇要么“太散”（k值太小），要么“碎成渣”（k值太大）；用DBSCAN要么把所有点都标为噪声（eps太小），要么把无关点硬凑成簇（eps太大）？
本文聚焦聚类算法参数调优，覆盖K-means、DBSCAN、层次聚类等主流算法，从参数的“底层逻辑”到“调优策略”，再到“实战验证”，帮你快速掌握让分组效果最大化的核心技巧。

预期读者

刚接触聚类的机器学习新手（想搞懂参数怎么选）
有一定经验的数据分析师（想优化现有聚类结果）
算法工程师（想为业务场景定制调优方案）

文档结构概述

本文将按“概念→原理→实战→应用”的逻辑展开：

用“分糖果”“找人群”等生活案例讲清聚类算法的核心参数；
拆解K-means（k值、初始质心）、DBSCAN（eps、min_samples）等参数的数学意义；
用Python代码演示“参数调优全流程”（含评估指标选择）；
总结不同场景下的调优策略（如高维数据、非凸形状簇）。

术语表

核心术语定义

簇（Cluster）：数据集中相似样本的集合（比如“爱吃甜食的用户”“红色糖果”）。
无监督学习：无需标签，仅通过数据内在结构分组（区别于分类任务需要“已标注的训练数据”）。
轮廓系数（Silhouette Score）：评估簇内紧密度和簇间分离度的指标（范围[-1,1]，越接近1越好）。

缩略词列表

K-means：K均值聚类（K-means Clustering）
DBSCAN：基于密度的空间聚类（Density-Based Spatial Clustering of Applications with Noise）

核心概念与联系：用“分糖果”和“找人群”理解聚类参数

故事引入：过年分糖果的烦恼

过年家里买了1000颗糖果，有水果糖（红/黄）、巧克力（棕/黑）、软糖（透明/粉色）。妈妈让你把糖果分成“不同种类”的组，但没说具体分几组。这时候你会怎么选？

如果分2组（k=2）：可能把水果糖和软糖混一起（太笼统）；
如果分10组（k=10）：每组可能只有几颗糖（太细碎）；
正确的k值应该让“同组糖果尽量像，不同组尽量不像”——这就是聚类参数调优的核心目标！

核心概念解释（像给小学生讲故事）

概念一：K-means的“k值”和“初始质心”

K-means就像“选组长”游戏：先选k个“组长”（初始质心），然后让其他成员（样本）加入离自己最近的组长所在组，最后调整组长位置（更新质心），直到组不再变化。

k值：要分几组（比如分3组：水果糖、巧克力、软糖）。k太小，组内差异大；k太大，组间差异小。
初始质心：第一次选的组长位置（如果随便选，可能导致“组长”分布不均，比如全选红色水果糖当组长，最后所有组都是红色）。

概念二：DBSCAN的“eps”和“min_samples”

DBSCAN像“找人群”游戏：在广场上，每个人周围画一个圈（半径eps），如果圈内至少有min_samples个人（包括自己），那他就是“核心点”；核心点周围的点属于同一群，落单的点是“噪声”（比如广场上的零散游客）。

eps：圈的半径（太大，不同人群会被合并；太小，大群会被拆成小群）。
min_samples：圈内至少需要的人数（太大，核心点太少，很多人变噪声；太小，随便几个人就成一群）。

概念三：评估指标（轮廓系数、Calinski-Harabasz）

调参后怎么知道分组好不好？需要“评分员”：

轮廓系数：每个样本的“组内亲密分”（离同组其他样本的平均距离）和“组外陌生分”（离最近其他组样本的平均距离）的差值。如果组内亲密、组外陌生，分数接近1（完美）；如果组内疏远、组外亲密，分数接近-1（极差）。
Calinski-Harabasz：簇间离散度 / 簇内离散度，值越大说明组间差异大、组内差异小（类似“班级总分差大，班内分数集中”）。

核心概念之间的关系（用小学生能理解的比喻）

k值 vs 轮廓系数：k值就像分糖果的组数，轮廓系数是“分组质量分”。比如分3组时，轮廓系数0.8（好）；分10组时，轮廓系数0.3（差），说明k=3更好。
eps vs min_samples：eps是“找人群时的圈大小”，min_samples是“圈内至少需要的人数”。如果圈很大（eps=5米），但要求圈内至少10人（min_samples=10），可能找不到核心点（广场人少）；如果圈小（eps=1米），但只需要2人（min_samples=2），可能分出很多小群（比如两两聊天的人）。
初始质心 vs K-means结果：初始质心像“第一次选的组长”，如果组长选得太集中（比如全在红色糖果区），最终分组可能忽略其他颜色（比如棕色巧克力被误分到红色组）。

核心概念原理和架构的文本示意图

聚类参数调优的本质是“平衡簇内相似性和簇间差异性”：

输入数据 → 选择算法（K-means/DBSCAN等） → 设置参数（k/eps等） → 生成簇 → 评估指标（轮廓系数等） → 调整参数 → 最优分组

Mermaid 流程图

graph TD
    A[原始数据] --> B{选择算法}
    B --> C[K-means]
    B --> D[DBSCAN]
    C --> E[设置k值/初始质心]
    D --> F[设置eps/min_samples]
    E --> G[生成簇]
    F --> G
    G --> H[计算轮廓系数/Calinski-Harabasz]
    H --> I{指标是否达标？}
    I -->|否| J[调整参数]
    I -->|是| K[输出最优分组]
    J --> G

核心算法原理 & 具体操作步骤

K-means参数调优：从“乱分组”到“精准分组”

数学原理

K-means的目标是最小化所有样本到其所属簇质心的平方距离和（损失函数）：
$\sum_{i=1}^n \sum_{j=1}^k w_{ij} \| x_i - \mu_j \|^2$
其中：

( w_{ij} )：样本( x_i )属于簇( j )时为1，否则为0；
( \mu_j )：簇( j )的质心（( \mu_j = \frac{1}{n_j} \sum_{x_i \in C_j} x_i )）。

关键参数说明

参数	作用	常见问题
`n_clusters`（k值）	设定簇的数量	k太小→簇内差异大；k太大→簇间差异小
`init`	初始质心选择方式（'k-means++'或随机）	随机初始化可能导致局部最优（比如质心选在边缘）
`max_iter`	最大迭代次数（防止无限循环）	太小→未收敛，质心位置不准确；太大→计算浪费

调优步骤（以k值为例）

经验法：根据业务场景预估（比如用户分群，已知有高/中/低价值三类，k=3）。
肘部法（Elbow Method）：计算不同k值的损失函数（簇内平方和SSE），找“拐点”（k增大但SSE下降变缓的点）。
轮廓系数法：计算不同k值的轮廓系数，选系数最大的k。

DBSCAN参数调优：从“全是噪声”到“清晰分群”

数学原理

DBSCAN通过密度定义簇：

核心点：样本( x )的eps邻域内至少有min_samples个样本（包括自己）；
边界点：在核心点的邻域内，但自身不是核心点；
噪声点：既不是核心点也不是边界点。

关键参数说明

参数	作用	常见问题
`eps`	邻域半径（决定点与点的“连接”范围）	太小→核心点少，噪声多；太大→不同簇合并
`min_samples`	邻域内最小样本数（决定“密度”阈值）	太小→簇过多（低密度区域也成簇）；太大→核心点少，噪声多
`metric`	距离度量方式（欧氏距离、曼哈顿距离等）	高维数据用欧氏距离可能失效（维度灾难）

调优步骤（以eps和min_samples为例）

k-距离图（k-distance plot）：计算每个样本到第min_samples近邻的距离，排序后找“拐点”（拐点对应的距离为最优eps）。
网格搜索+轮廓系数：固定min_samples（如2*特征数），遍历eps值，选轮廓系数最大的组合。

数学模型和公式 & 详细讲解 & 举例说明

K-means的肘部法数学表达

肘部法的核心是观察簇内平方和（SSE）随k值的变化：
$\sum_{j=1}^k \sum_{x_i \in C_j} \| x_i - \mu_j \|^2$
当k较小时，增加k会显著降低SSE（因为簇更细，样本离质心更近）；当k超过真实簇数后，SSE下降变缓（因为需要拆分原本紧凑的簇）。此时的“拐点”即为最优k值。

举例：假设真实簇数是3，当k=2时SSE=1000，k=3时SSE=200，k=4时SSE=180（仅下降10%），则k=3是拐点。

DBSCAN的k-距离图原理

对于每个样本( x_i )，计算其到第min_samples近邻的距离( d_i )，将( d_i )排序后得到序列( D )。最优eps是( D )中“突然上升”的位置（类似“悬崖”的起点），因为此时超过该距离的点不再属于任何核心点的邻域。

举例：min_samples=5时，计算所有点的5-近邻距离，排序后发现当距离=0.8时，曲线从平缓变陡峭，说明eps=0.8是合适值。

项目实战：代码实际案例和详细解释说明

开发环境搭建

工具：Python 3.8+、Jupyter Notebook
依赖库：numpy（数值计算）、pandas（数据处理）、scikit-learn（聚类算法）、matplotlib（可视化）
安装命令：

pip install numpy pandas scikit-learn matplotlib

源代码详细实现和代码解读（以K-means和DBSCAN为例）

案例1：K-means调优（用户分群）

假设我们有一组用户消费数据（特征：年消费金额、年消费次数），需要分成不同价值的用户群。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 生成模拟数据（3个真实簇）
X, _ = make_blobs(n_samples=500, centers=3, cluster_std=1.0, random_state=42)

# 肘部法找最优k值
sse = []
silhouette_scores = []
k_values = range(2, 10)

for k in k_values:
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    kmeans.fit(X)
    sse.append(kmeans.inertia_)  # SSE
    silhouette = silhouette_score(X, kmeans.labels_)
    silhouette_scores.append(silhouette)

# 绘制肘部图和轮廓系数图
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(k_values, sse, 'bo-')
plt.xlabel('k值')
plt.ylabel('SSE（簇内平方和）')
plt.title('肘部法找最优k值')

plt.subplot(1, 2, 2)
plt.plot(k_values, silhouette_scores, 'ro-')
plt.xlabel('k值')
plt.ylabel('轮廓系数')
plt.title('轮廓系数法找最优k值')

plt.show()

代码解读：

make_blobs生成3个高斯分布的簇（模拟真实用户群）；
遍历k=2到9，计算每个k的SSE和轮廓系数；
肘部图中，k=3时SSE下降变缓（拐点）；轮廓系数图中，k=3时系数最大（约0.7），说明k=3是最优值。

案例2：DBSCAN调优（异常检测）

假设我们有一组传感器数据（特征：温度、湿度），需要检测异常点（噪声）。

from sklearn.cluster import DBSCAN
from sklearn.neighbors import NearestNeighbors

# 生成模拟数据（包含噪声）
X, _ = make_blobs(n_samples=500, centers=2, cluster_std=0.5, random_state=42)
# 添加10%噪声（随机点）
noise = np.random.uniform(low=-5, high=5, size=(50, 2))
X = np.concatenate([X, noise])

# 用k-距离图找eps（min_samples=5）
neighbors = NearestNeighbors(n_neighbors=5)
neighbors_fit = neighbors.fit(X)
distances, _ = neighbors_fit.kneighbors(X)
distances = np.sort(distances, axis=0)[:, 4]  # 第5近邻的距离

plt.plot(distances)
plt.xlabel('样本排序')
plt.ylabel('5-近邻距离')
plt.title('k-距离图找eps')
plt.grid()
plt.show()

# 观察k-距离图，拐点约在0.3，设置eps=0.3，min_samples=5
dbscan = DBSCAN(eps=0.3, min_samples=5)
dbscan.fit(X)
labels = dbscan.labels_

# 计算轮廓系数（排除噪声点，标签=-1）
core_samples = labels != -1
silhouette = silhouette_score(X[core_samples], labels[core_samples])
print(f"轮廓系数（排除噪声）: {silhouette:.2f}")

代码解读：

NearestNeighbors计算每个样本的5-近邻距离，排序后绘制k-距离图；
观察到距离在0.3附近出现拐点，设置eps=0.3；
min_samples=5（通常取2倍特征数，这里特征数=2，故取5）；
轮廓系数约0.6（较好），说明分组合理，噪声点被正确识别。

代码解读与分析

K-means：肘部法和轮廓系数法需结合使用（肘部法可能不明显，轮廓系数更直接）；init='k-means++'可避免随机初始化的弊端（比随机选质心更均匀）。
DBSCAN：k-距离图是关键（比网格搜索更高效）；噪声点标签为-1，评估时需排除（轮廓系数不支持噪声点）。

实际应用场景

场景1：电商用户分群（K-means）

某电商平台想将用户分为“高价值”“中价值”“低价值”三组。

参数选择：k=3（业务经验）；init='k-means++'（避免质心偏移）；用轮廓系数验证（需>0.5）。
效果：高价值用户（年消费>10万）被单独分组，针对性推送奢侈品；低价值用户推送优惠券促活。

场景2：图像分割（DBSCAN）

医学图像中分割肿瘤区域（密度高的像素点）。

参数选择：eps=像素间距（如0.5mm）；min_samples=10（肿瘤区域至少10个密集像素）；metric='euclidean'（像素间欧氏距离）。
效果：准确区分肿瘤（高密度簇）和正常组织（低密度区域），噪声点（孤立像素）被过滤。

场景3：社交网络社区发现（层次聚类）

微博用户兴趣社区划分（用户间互动频繁为同一社区）。

参数选择：linkage='ward'（最小化簇方差）；distance_threshold（设定社区间最小距离）。
效果：游戏、科技、娱乐社区被清晰划分，边缘用户（互动少）归为小社区。

工具和资源推荐

可视化工具：
- matplotlib/seaborn：绘制肘部图、轮廓图；
- yellowbrick：内置肘部图、轮廓图可视化（pip install yellowbrick）。
调参工具：
- GridSearchCV（sklearn）：网格搜索最优参数组合；
- Optuna：自动化超参数优化（比网格搜索更高效）。
学习资源：
- 书籍：《Pattern Recognition and Machine Learning》（第9章聚类）；
- 论文：《A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise》（DBSCAN原论文）。

未来发展趋势与挑战

趋势1：自动化调参（AutoML）

传统调参依赖人工经验，未来AutoML工具（如H2O、TPOT）将自动完成“算法选择+参数调优”，降低使用门槛。

趋势2：高维数据聚类

高维数据（如文本、基因序列）的“维度灾难”导致距离度量失效，未来可能结合降维（PCA、t-SNE）或流形学习优化参数。

挑战1：非凸形状簇的识别

K-means擅长球形簇，但现实中簇可能是月牙形、环形（如DBSCAN能处理）。需根据簇形状选择算法（如HDBSCAN支持可变密度）。

挑战2：参数对数据分布的敏感性

不同数据分布（如均匀分布、高斯分布）需要不同参数策略，需结合数据探索（如可视化、统计检验）调整。

总结：学到了什么？

核心概念回顾

K-means：关键参数k值（组数）、初始质心（影响收敛）；
DBSCAN：关键参数eps（邻域半径）、min_samples（密度阈值）；
评估指标：轮廓系数（簇内紧密度+簇间分离度）、Calinski-Harabasz（簇间/簇内离散度比）。

概念关系回顾

参数调优的本质是“平衡簇内相似性和簇间差异性”；
不同算法参数相互影响（如DBSCAN的eps和min_samples需联动调整）；
评估指标是调参的“指南针”（需结合业务场景选择）。

思考题：动动小脑筋

如果你用K-means对用户分群，得到的轮廓系数是0.2（较低），可能的原因是什么？如何改进？
（提示：k值过大/过小？数据未标准化？）
用DBSCAN处理高维数据时，为什么欧氏距离可能失效？可以用什么替代距离度量？
（提示：高维空间中所有点的距离趋于相等，可尝试余弦相似度、Jaccard距离）
业务中需要将用户分为“潜在流失”“稳定”“高价值”三组，但肘部法显示k=4时SSE拐点更明显，该如何决策？
（提示：结合业务意义，检查k=4时多出来的簇是否是有价值的细分群体）

附录：常见问题与解答

Q1：K-means的k值必须提前知道吗？没有先验知识怎么办？
A：是的，k值需提前设定。若没有先验知识，可用肘部法、轮廓系数法或Gap Statistic（比较数据分布与随机分布的差异）自动确定。

Q2：DBSCAN的min_samples为什么建议设为2倍特征数？
A：特征数越多，样本在高维空间越稀疏，需要更多样本来定义“密度”。例如2维数据（x,y）设min_samples=4，10维数据设min_samples=20。

Q3：聚类结果需要业务验证吗？
A：必须！算法分组是“数据驱动”，但最终簇的意义（如“高价值用户”）需要业务人员确认。例如，算法可能分出“夜间活跃用户”，但业务上可能无运营价值，需调整参数重新聚类。

扩展阅读 & 参考资料

书籍：《Python机器学习基础教程》（Andreas C. Müller著，第2章聚类）
论文：《k-means++: The Advantages of Careful Seeding》（K-means++初始化方法原论文）
文档：scikit-learn聚类官方指南（https://scikit-learn.org/stable/modules/clustering.html）

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

聚类算法参数调优指南：如何获得最佳分组效果