Ricardo1998

【菲尔兹学院夏令营】复杂网络3-社区结构

社区结构

图划分（graph partitions）算法比较

图聚类算法

图上的集成聚类（ECG）

图社区

定义
谱分割
Girvan-Newman聚类
基准：种植分区，LFR
模块度
算法

定义

两个基本假设：[Barabasi,Network Science]

一个网络的社区结构在其布局图中是唯一的。
一个社区是网络中的一个局部密集连接子图。

模型：

对于一个图 $G = (V, E)$ ，考虑由一个节点 $V_C⊂V$ 的子集诱导的连接子图C（C中的节点满足 $i∈V_C$ ）。

内部外部度：

定义节点 $i∈V_C$ 的内部度（其在子图C内的度）： $d^{int}_i (C)$
节点i的外部度是： $d^{ext}_i (C) = d_i - d^{int}_i (C)$

其中 $d_i$ 是节点i在G中的总度

强弱社区：

如果对每个节点 $i∈V_C$ ， $d^{int}_i (C) > d^{ext}_i (C)$ ，则C是一个强社区（strong community）
如果对每个节点 $i∈V_C$ ， $\sum_{i \in V_C} d_i^{\text {int }}(C)>\sum_{i \in V_C} d_i^{e x t}(C)$ ，则C是一个弱社区（weak community）

集团和核：

集团（clique）是G的一个完全连接的子图。
k核（k-core）是G的一个最大连接子图，其中所有节点的度数至少为k
- 我们可以通过反复删除所有度数小于k的节点来找到k-cores
- 如果一个节点属于k-core但不属于(k+1)-core，那么这个节点的核心度（coreness）为k

簇（聚类）：

大小为k的图 $G = (V, E)$ 的聚类（clustering）是一个节点 $V_1 \cup...\cup V_k$ 的分区，其中：
- 所有 $V_i \cap V_j=\emptyset \space i \neq j$
- 对于每个部分（或集群） $V_i$ ，其诱导子图 $G_i$ 是连通的

谱聚类

谱聚类（Spectral clustering）是一个庞大的话题，本课程只介绍明谱分割（spectral bisection）

参考：

https://blog.csdn.net/weixin_45591044/article/details/122747024

https://blog.csdn.net/SL_World/article/details/104423536

模型：

考虑未加权的无向图 $G = (V, E)$ ，邻接矩阵为A
D是节点度组成的对角矩阵
$L = D - A$ 是G的（未归一化的）拉普拉斯系数矩阵
G中的社群结构与L的特征分解之间关系紧密
对于所有的 $\in \mathbb{R}^n$ ：
$f^t L f=\frac{1}{2} \sum_{i, j} a_{i j}\left(f_i-f_j\right)^2$
因此，当 $a_{ij}>0$ 时，使上述表达式最小化相当于使 $f_i≈f_j$

求解：

考虑比率切分法 ratio-cut ： $\cup S^c$

与之对应的还有normalized-cut（将拉普拉斯矩阵归一化）

$\operatorname{Rcut}\left(S, S^c\right)=\frac{\operatorname{Vol\partial S}}{|S|}+\frac{\operatorname{Vol\partial S}}{\left|S^c\right|} \\ where \operatorname{Vol}(\partial S)=\left|\left\{e:|E \cap S|=\left|E \cap S^c\right|=1\right\}\right|$

这可以近似求解为：
$\min _{f \in \mathbb{R}^n} f^t L f ; f \perp 1,\|f\|=\sqrt{n}$
其中，结果是对应于L的第二个最小特征值的特征向量——结论推导见参考博客

讨论：

L是对称的和半正定的，所以所有的特征值都是实数和非负数。
L有最小的特征值0；这个特征值的倍数对应于G中连接组件的数量。
因此，我们可以对这些特征值进行排序，同时对它们各自的特征向量进行排序。

$0 = λ_1 ≤ λ_2... ≤ λ_n$

非连通图情况：

有至少两个0特征值
按照第二小特征值对应的特征向量，有0和非0两种情况，按这个分类即可。

连通图情况：

考虑一个连通图G。它只有一个0特征值。
在一个连通图中，特征向量 $u_2$ 对应于费德勒向量中的 $λ_2>0$ 。
谱分割是基于费德勒向量（第二小的特征向量）中条目的符号。——正为一类，负为另一类

多个社区：

如果有2个以上的聚类，这样的过程可以被递归应用
这是一个分裂性层次聚类的例子
然而，它可能表现得很糟糕，可能会分割本来存在的社区
所以我们去 $u_2, ... u_k$ ，再利用k-means等算法对得到的特征向量进行聚类

总结：

一般适用于分组数量已知的情况，核心是最小化割边总和并最大化每个簇的节点数

GN算法

Girvan-Newman算法

步骤：

计算每个 $e ∈ E $的边介数，并删除具有最高值的边
将生成的图按连通分支拆分（簇）并递归地应用该方法
这会产生一个聚类层次结构，我们可以将其表示为树状图

——根据一些标准选择最好的分区，比如模块度（modularity）、或指定集群数量

问题：

该算法的一个问题是它的时间复杂度： $O(m^2n)$
对于非常稀疏的图，也有 $O(n^3) $，仍然很高
其他算法可以达到 $O (m)$ 或 $O (n l o g n)$

基准

为什么要有社区基准模型？

测试和比较算法
控制噪音水平、社区规模等
真实图数据很少有真实值（ground-truth）
有ground-truth，但可能与基本假设不一致

种植-分区模型

Planted partitions model

固定节点数 n 和社区数 k，对于社区，我们：

平均分配节点到每个社区
或将每个节点独立分配给社区 i，概率为 $p_i$ ， $\sum p_i=1$

对于分别在社区i和社区j中的节点对 $(i, j)$ ，我们按照概率 $P (i, j)$ 添加边
- 可以指定 $P(i, i)=p_{in}$ 、 $j)=p_{out}, \space i \neq j$

LFR模型

Lancichinetti-Fortunato-Radicchi model

固定节点数 n
设定三个主要参数：
1. $γ_1$ ：节点度服从 $p_n ∝ n^{−γ_1}$ 的幂律分布；推荐值为 $2 ≤ γ_1 ≤ 3$ 。
2. $γ_2$ ：社区规模服从 $p_k ∝ k^{−γ_2}$ 的幂律分布；推荐值为 $1 ≤ γ_2 ≤ 2$ 。
3. $0 \leq µ \leq 1$ ：对于每个节点，这是连接到其他社区的边的预期比例，而 $(1 - µ)$ 是其自己社区内的比例。
—— $µ$ 称为噪声水平或混合参数
把每个节点都分配到社区
- 存在允许重叠社区的变体
- 可以提供额外参数来限制度分布（平均和最大度）和社区大小（最小和最大）
- 从配置模型开始，重新连接节点以逼近目标分布
- 初始阶段可以使用BA等其他模型

基准代码生成 3 个文件：

包含节点标记为 1 的边列表的文件
包含节点列表及其社区成员的文件，社区也被标记为 1
具有度分布、社区大小分布和混合参数等统计信息的文件

讨论：

LFR 的可扩展性有些受限，一些可扩展的基准模型有：
- RMAT ，生成具有幂律度数分布的图；在 Graph-500 中使用
- BTER (Block Two-level ER)，生成服从幂律度分布以及社区结构的图
- SBM（Stochastic Block Model），它也生成具有社区结构的图。
  
  ——它最简单的定义是种植分区模型的变体。

模块度

引言：

Barabasi 的第三个基本假设：随机连线的网络缺乏固有的社区结构
模块度使用随机连接作为空模型来量化某些图分区的社区结构

模型：

考虑无向图 $G = (V, E)$
令 $∣ V ∣ = n$ , $∣ E ∣ = m$ , $d_i$ 为节点 i 的度数
设 $a_{ij} = a_{ji} = 1$ 当且仅当 $(i, j) \in E$ ，否则为 0；设 $a_{ii} = 2$ 当且仅当 $(i, i) ∈ E $
当我们随机连线时，节点 i 和 j 之间的预期边数（概率）为：
$p_{ij}=\frac{d_id_j}{2m}$
令 $V = C_1 ∪ · · · C_k$ ，将图划分为 k 个簇。对于某些簇 $C_l$ ，定义：
$q_{C_l}=\frac{1}{2 m} \sum_{i, j \in C_l}\left(a_{i j}-p_{i j}\right)$
展开为：
$q_{C_l}=\frac{\sum_{i, j \in C_l} a_{i j}}{2 m}-\frac{\sum_{i, j \in C_l} d_i d_j}{(2 m)^2}$
令：
$e(C_l) = |{e ∈ E ; e⊆C_l}|$

$\operatorname{Vol}\left(C_l\right)=\sum_{i \in C_l} d_i$

代入可得：
$q_{C_l}=\frac{e\left(C_l\right)}{m}-\left(\frac{\operatorname{Vol}\left(C_l\right)}{2 m}\right)^2$
模块度最终定义为：
$q=\sum_{l=1}^k \frac{e\left(C_l\right)}{m}-\left(\frac{\operatorname{Vol}\left(C_l\right)}{2 m}\right)^2$

我们将上面的第一项称为边缘贡献（edge contribution），将第二项称为度税（degree tax）
图的模块度 $q^∗(G)$ 有时被定义为所有可能分区中上述指标所取的最大值

讨论（局限）：

Barabasi 的第四个基本假设：对于一个给定的网络，具有最大模块化的分区对应于最佳社区结构。
然而，模块化有一些已知的问题——"最佳 "可能并不总是转化为 “直观”。

基于模块化的算法受到分辨率限制问题的影响：
- 考虑l个大小为m的集团（m-clique）组成的环， $n = l \cdot m$
- 当 $m (m - 1) < l - 2$ 时，对相邻的集团进行分组，模块度高于每个集团自己形成集群
- 正如我们将说明的那样，一些基于模块化的算法因此倾向于对已有社区进行组合

算法

CNM：

CNM算法（Clauset、Newman、Moore），也称为快速贪心算法（Fast Greedy）

开始，每个顶点作为一个单独集群
选择最能提高模块度的一对集群（如果有的话），然后合并它们
当没有办法提高模块度的时候停止
复杂度： $O(n^2)$ ，稀疏图更少

Louvain：

也称为多级算法（Multilevel algorithm）或快速折叠算法（fast unfolding）

开始，每个顶点作为一个单独集群
循环遍历每个顶点，将其移动到模块度增加最多（如果有的话）的邻居社区
重复以上步骤，直到没有任何提升空间为止
将每个社区折叠成一个节点并重新运行上述步骤——另一个层级
当图折叠到单个节点（或者当最后一级没有移动）时停止
复杂度： $O (n l o g n)$

Infomap：

Infomap基于信息论：使用概率随机游走和压缩算法来实现
给定 G 和一个初始化分区方案，尽可能高效地编码随机游走
利用随机游走往往在同一社区中停留更长时间的性质
优化图方程：社区间游走的平均位数+社区内游走的平均位数
复杂度： $O (n l o g n)$

标签传播：

开始，每个顶点作为一个单独集群，有自己的簇标签
循环遍历每个顶点，每个顶点都采用其邻居中最流行的标签（使用随机来打破死锁）
当每个顶点具有与其邻域中最频繁出现的标签相同的簇标签时，算法停止
复杂度： $O (m)$

——注意：此算法速度很快，但并不总能收敛到一个解。

其他：

WalkTrap：一种基于短距离随机游走的分层算法。它的复杂度是 $O(n^2 log n)$ 。
Leading eigenvector（前导特征向量）：基于模块化矩阵的谱分解。对于每个双分区，其复杂度为 $O (n (n + m))$

Louvain和Infomap的算法目前被认为是最先进的。

2023年评论：应该是Leiden算法

图分区的比较（指标）

介绍：图聚类
常见的相似性测度量
与二元分类的联系
图感知度量（Graph-aware measures）
拓扑学特征

图聚类

符号描述：

$G = (V, E), E \subset V \times V, ∣ V ∣ = n, ∣ E ∣ = m$

A，邻接矩阵： $a_{ij} = 1 ⇔ (i, j) ∈ E$
$d_i$ ：顶点i的程度

术语解释：

图聚类/分割（clustering/partitioning）：将顶点分割成相连的子图
社区发现（Community finding）：并非所有的顶点都需要被分配到一个群组中去
模糊聚类（Fuzzy clustering）：节点不属于、属于一个或多个群组

图划分： $\mathbf A = \{A_1, A_2, ..., A_k\}$ ，为节点集 $V$ 的一个划分（partition）

每个 $A_i$ 诱导出一个连通子图
是连通分支的泛化
- 集群内的边密度大；集群间的边密度小

应用：

图聚类是关系型EDA（互联网数据分析）的一个重要工具
- 图尺寸缩减
- 社区检测
- 异常检测
- ……
如何挑选聚类算法？
- 集群的质量
- 稳定性
- 效率（时间空间）
- 其他：不需要指定聚类的数量（k）、集群的层次结构等

优化目标：

这是无监督学习，所以没有明确的目标函数
不同算法使用不同的目标函数：
1. 模块度：
$Q=\frac{1}{2 m} \sum_{i, j \in \text {同一簇} }\left(a_{i j}-\frac{d_i d_j}{2m}\right)$
1. N-cut
$\sum_i \frac{\text { cut }\left(A_i, \overline{A_i}\right)}{\# \text { edges in } A_i}$

不同分割方法对比：

质量的衡量标准： $sim(\mathbf T, \mathbf A) \space \text {w.r.t. ground truth partition} \space \mathbf T$
稳定性的衡量标准：同一算法的运行多次比较 $sim(\mathbf A, \mathbf {A'})$
比较算法之间的结果： $sim(\mathbf A, \mathbf B)$

相似性

总体分类：

基于成对计数（Pairwise-counting）
$W_f(\mathbf{A}, \mathbf{B})=\frac{\left|P_A \cap P_B\right|}{f\left(\left|P_A\right|,\left|P_B\right|\right)}$
基于信息论
$I_f(\mathbf{A}, \mathbf{B})=\frac{I(\mathbf{A}, \mathbf{B})}{f(H(\mathbf{A}), H(\mathbf{B}))}$
基于卡方分布（ $χ^2$ ）
$\begin{gathered} X_f^2(\mathbf{A}, \mathbf{B})=\frac{X^2(\mathbf{A}, \mathbf{B})}{f((k-1),(r-1))} \\ f(x, y) \in\{\min (x, y), \max (x, y), \operatorname{mean}(x, y), \sqrt{x y}\} \end{gathered}$

基于成对计数：

考虑对图节点的两个划分：

$\mathbf A = (A_1, ..., A_k) = (\{1, 2, .., 7\}, \{8\}, · · · )$

$\mathbf B = (B_1, ..., B_r ) = (\{1\}, \{2, 3, 4\}, \{5, 6, 7, 8\}, · · · )$
度量指标基于A和B里面各个集群中的成对元素

$P_A = \{(1, 2), (1, 3), (1, 4), (1, 6), (1, 7), (2, 3), · · · \}$

$P_B = \{(2, 3), (2, 4), (3, 4), (5, 6), (5, 7), (5, 8), · · · \}$
关键值为： $P_A ∩ P_B|$
示例：
1. Jaccard 指数：
  $\frac {|P_A ∩ P_B|} {|P_A ∪ P_B|}$
2. 兰德指数
$\frac {|P_A ∩ P_B| + |\overline {P_A} ∩ \overline {P_B}|} {\left(\begin{array}{c} n \\ 2 \end{array}\right)}$

基于信息论：

基于 A 和 B 之间的互信息
关键值为：
$I(\mathbf{A}, \mathbf{B})=\sum_{i, j} \frac{\left|A_i \cap B_j\right|}{n} \log \frac{\left|A_i \cap B_j\right| / n}{\left|A_i\right|\left|B_j\right| / n^2}$
示例：归一化互信息 (NMI)：
$\frac {I(\mathbf A, \mathbf B)} {(H(\mathbf A)+H(\mathbf B))/2}$

基于卡方分布：

关键值为：
$X^2(\mathbf{A}, \mathbf{B})=\sum_{i, j} \frac{1}{\left|A_i\right|\left|B_j\right|}\left(\left|A_i \cap B_j\right|-\frac{\left|A_i\right|\left|B_j\right|}{n}\right)^2$
示例：Cramer 的 V指标和 Tschurprow 的 T指标

测量指标vs.大小分布：

问题：比较不同大小的分区时，这些度量指标表现怎么样？

实验（多次重复）：

$\mathbf A$ ：节点V的划分 $∣ V ∣ = 10$
$\mathbf B^{(t)}$ ，V 的随机分区 $|\mathbf B^{(t)}| =t$ ， $t = 2 、 5 、 10 、 20 、 30 、 40 、 50 、 100$
测量 $\mathbf A$ 和所有分区 $\mathbf B^{(t)}$ 之间的相似性——期望所有相似度都很低

——结果：只有兰德系数变得接近1，其他都随着t的增大减小或趋向0

按概率进行调整：

实现 “在聚类结果随机产生的情况下，指标应该接近零”

$\text { Adjusted Similarity }(\mathbf{A}, \mathbf{B})=\frac{\operatorname{Similarity}(\mathbf{A}, \mathbf{B})-\operatorname{Expected} \operatorname{Sim}\left(\left|A_i\right|^{\prime} s,\left|B_j\right|^{\prime} s\right)}{1-\text { Expected } \operatorname{Sim}\left(\left|A_i\right|^{\prime} s,\left|B_j\right|^{\prime} s\right)}$

成对计数指标的调整：
$W_f(\mathbf{A}, \mathbf{B})=\frac{\left|P_A \cap P_B\right|-\left|P_A\right|\left|P_B\right| /\left(\begin{array}{c} n \\ 2 \end{array}\right)}{f\left(\left|P_A\right|,\left|P_B\right|\right)-\left|P_A\right|\left|P_B\right| /\left(\begin{array}{c} n \\ 2 \end{array}\right)}$
Jaccard 没有已知的调整形式
调整兰德指数定义为：
$ARI(\mathbf A, \mathbf B) = APW_{mean}(\mathbf A, \mathbf B)$
基于信息论和基于 $χ^2$ 的也可以针对机会进行调整
最常用的有：
1. ARI：调整兰德系数
2. AMI：调整互信息

——调整后的指标在随机下都趋近于0

二元划分

我们已经有了对比划分的指标，但我们根本没有考虑图拓扑。

测量相似性时应该考虑边吗？

这就引出了下面要讲的图感知测量，在这之前，要先讲下二元划分

边分类：

图分区可以由节点 V 上的集合分区表示

$\mathbf A = (\{1\}, \{2, 3, 4\}, \{5, 6, 7, 8\}, \{9, 10, 11\}, \{12\})$
我们还可以考虑二元边分类（顶点是否在同一簇中）

$(2, 3), (2, 4), (3, 4), ..., (9, 10), (9, 11), (10, 11) \to c l a ss 1$ ——两端节点在同一簇的边
$(1, 2), (4, 5), (8, 10), (11, 12) \to c l a ss 0$ ——两端节点在不同簇的边
更正式地说，对于顶点分区 A，我们定义长度为 m 的二元向量 $b_A$ ，其中，对于每条边 $e = (i, j) \in E$ ：
$b_{\mathbf{A}}(e)=\left\{\begin{array}{cc} 1 & \exists A_k \in \mathbf{A} \mid i, j \in A_k \\ 0 & \text { otherwise. } \end{array}\right.$
更进一步地，可以利用此方法对类别1边子集的边进行搜寻。

二元分类器的评估：

考虑 $b_A$ 和 $b_B$ ，两个二元边分类器。
用于比较二元分类器的四个基本计数是：
对应的各种度量指标如下：
$\begin{aligned} 准确性——& \mathrm{gR}: \frac{\left|P_A \cap P_B \cap E\right|+\left|\overline{P_A} \cap \overline{P_B} \cap E\right|}{|E|} \\ Jaccard——& \text { gJ: } \frac{\left|P_A \cap P_B \cap E\right|}{\left|\left(P_A \cup P_B\right) \cap E\right|} \\ F 分数 (β = 1)——& \mathrm{gPW}_{m n}: \frac{\left|P_A \cap P_B \cap E\right|}{\frac{1}{2}\left(\left|P_A \cap E\right|+\left|P_B \cap E\right|\right)} \\ 余弦相似度——& \mathrm{gPW}_{g m n}: \frac{\left|P_A \cap P_B \cap E\right|}{\sqrt{\left|P_A \cap E\right|\left|P_B \cap E\right|}} \\ Simpson——& \mathrm{gPW}_{\min }: \frac{\left|P_A \cap P_B \cap E\right|}{\min \left\{\left|P_A \cap E\right|,\left|P_B \cap E\right|\right\}} \\ Braun\&Banquet——& \mathrm{gPW}_{\max }: \frac{\left|P_A \cap P_B \cap E\right|}{\max \left\{\left|P_A \cap E\right|,\left|P_B \cap E\right|\right\}} \\ & \end{aligned}$

图感知度量

（调整）图感知度量：

上一节的指标可以用二元分类向量的乘积表示：

$\left|P_A \cap P_B \cap E\right| = |b_A · b_B|$
我们提出一系列成对计数的图感知度量指标：（一个是普通、另一个是调整后的）
$C_f(\mathbf{A}, \mathbf{B} ; G)=\frac{\left|b_{\mathbf{A}} \cdot b_{\mathbf{B}}\right|}{\left.f\left(\left|b_{\mathbf{A}}\right|,\left|b_{\mathbf{B}}\right|\right)\right)}, \quad A P C_f(\mathbf{A}, \mathbf{B} ; G)=\frac{\left|b_{\mathbf{A}} \cdot b_{\mathbf{B}}\right|-\frac{\left|b_{\mathbf{A}}\right| \cdot\left|b_{\mathbf{B}}\right|}{|E|}}{f\left(\left|b_{\mathbf{A}}\right|,\left|b_{\mathbf{B}}\right|\right)-\frac{\left|b_{\mathbf{A}}\right| \cdot\left|b_{\mathbf{B}}\right|}{|E|}}$

实验：

在LFR模型构建的社区中，调整图感知度量的性能指标都很好
不同种类的度量指标的度量效果不同（引子）

补充：

——图感知和图无关度量在解决问题方面具有相反的行为

图无关度量即前面说的普通相似性指标ARI等

设 G 的真实社区情况为 A，并设 B1 和 B2 分别是 A 的粗化和细化
在某些情况下，在图无关度量下A更接近B2（细化）；在图感知度量下A更接近B1（粗化）
- 当使用图无关的度量时，集群的数量更多
- 图感知度量生成的集群的数量更少
这两种指标都获得高值是我们做图聚类所希望的

定理的公式化描述：

考虑Girvan 和 Newman 模型的变体 G(n, p, q, A)，用于研究具有社区结构的图族
图有 n 个顶点，A为分区结果
- p为随机选择两个节点，其中的边在同一分区内的比例；
- q为随机选择两个节点，其中的边在不同分区内的比例。

拓扑特征

验证集群的另一种方法是比较集群的拓扑特征：参考Orman et al.,arXiv:1206.4987
示例：对于具有 $n_c$ 个节点和 $m_c$ 个边的社区 $c$ ——
- 缩放密度(scaled density)： $n_c \cdot m_c /\left(\begin{array}{c} n_c \\ 2 \end{array}\right)$
- 内部传递性(internal transitivity)： $\frac{1}{n_c} \sum_{i \in c} \frac{e_c(i)}{\left(\begin{array}{c} d_c(i) \\ 2 \end{array}\right)}$
  
  其中 $e_c(i)$ 是 c 中 i 的邻居之间的边数， $d_c(i)$ 是 c 中 i 的度数。
可以将特征作为簇大小的函数进行比较——比较聚类算法结果和ground truth的图形相似度

结论

使用调整后的基于集合的相似性度量，可以减少度量对分区粒度的偏差，消除随机性
图无关（ARI，AMI）和图感知（AGRI）度量是互补的：在评估算法的优越性时应同时使用它们

图的集成聚类（ECG）

共识聚类和 ECG
分辨率和稳定性
LFR 图上的研究
一些真实的图示例
ECG 权重
在异常检测中的应用

ECG

符号说明：

令图 G = (V , E), V = {1, 2, . . . , n}, 为无向图
对于每个 e ∈ E，边可以具有权重 w(e) > 0，或者考虑所有 w(e) = 1
令 $P_i = {C^1_i , …, C^{l_i}_i} $ 是大小为 $l_i$ 的 V 的一个分区
定义指示函数 $\mathbf 1_{C^j_i} (v)$ ，表示 $C^j_i$

图聚类的目标：好的、可扩展的、通用的——注意这是无监督学习

关联强度的度量
聚类的层次结构
不需要或尽量少调整参数

——使用集成学习（Ensemble learning）来实现这些目标：利用生成的多个分区来集成——如何合并多个图分区？

ECG算法：

ECG算法是图的共识聚类算法。步骤是：

生成步骤：来自 Louvain (ML) 算法的 k 个随机的 1级别（level-1）分区： $P = {P_1, . . .P_k}$ 。
集成步骤：在初始图 G = (V, E) 的重新加权版本上运行 ML。 ECG权重是通过联合获得的。

边 $e = (u, v) \in E$ 的 ECG 权重定义为：
$W_{\mathcal{P}}(u, v)=\left\{\begin{array}{lc} w_*+\left(1-w_*\right) \cdot\left(\frac{\sum_{i=1}^k \alpha_{P_i}(u, v)}{k}\right), & (u, v) \in 2 \text {-core } \\ w_*, & \text { otherwise } \end{array}\right.$

$0 < w_∗ < 1$ 是人工定义的最小权重
$α_{P_i} (u, v) = \sum ^{l_i}_{j=1} \mathbf 1_{C^j_i} (u) · \mathbf 1_{C^j_i} (v)$ 表示是否在 $P_i$ 的簇中共现。

通过示例可以看到，一个社区内的节点间的边在集成后权重变大，集团（clique）内的边尤其明显，而社区间的边集成后权重减小，变得很容易区分

分辨率和稳定性

分辨率：

基于模块化的算法存在分辨率限制问题：举例集团组成的环，相邻两个组合后模块度更大
w* 值较小的 ECG 算法缓解了这个问题
使用 level-1的Louvain 作为弱学习器是关键——第一层louvain不会聚合那些环上的边

实验：

在广义集团环上ECG算法表现也很好：将ECG和louvain、InfoMap比较，分别考察环上连接集团边数从1增加到5时的表现
即使噪音很大，权重仍然很显著：当噪声很大时，同一集团中的边权重仍然显著
在LFR生成的社区发现上，ECG算法能够很好地保留原始数量：level1的louvain数量过多，最终的louvain数量过少
在上一章的图感知与图无关度量上表现也很好

稳定性：

Louvain 和其他算法的已知问题：多次重新运行同一个算法会得到不同的结果
我们通过运行每个算法两次并应用一些比较措施（例如 ARI）来量化稳定性

实验：

ECG相比louvain在稳定性方面有了很大的改善
实证研究表明，结果对参数的选择不是很敏感（低级聚类次数k和最小权重W*）——不过一般情况下k越大、W*越小效果越好。

LFR 图上的比较研究

论文在数千个 LFR 图上比较 8 种算法
各种指标水平都是ECG较好
本研究只考虑γ1 = 2, γ2 = 1，在不同参数的LFR模型下，ECG大部分情况下都比较好

一些观察结论：

InfoMap 在大小相同的小型社区上提供最佳结果
ECG 在其他情况下提供最佳结果
ECG 的效果始终优于单个 Louvain (ML)

真实网络

足球俱乐部网络
- ECG和InfoMap都取得了最佳结果
YouTube网络
- 1,134,890 个节点（用户）和 2,987,624 条边（好友关系）
- 2-core 仅覆盖 41.1% 的顶点
- 8,385 个社区被声明为用户组，这些社区从拓扑角度来看非常薄弱
- 只有 12 个合格作为弱社区，外部度与总度的比率低于 0.5 我们将此比率扩展到 0.75（类似于 LFR 图中的 µ）
- 在图感知度量上ECG比InfoMap略胜一筹

权重

ECG 重新加权有助于提升聚类准确性和稳定性

我们讨论了计算的 ECG 权重的其他一些应用

我们定义了一个新的社区强度指数 (CSI)

我们展示了如何使用权重来放大种子顶点

社区强度指数CSI：

边界（0 和 1）附近的 ECG 权重的双峰分布(bi-modal distribution)表明了强大的社区结构
我们提出了一个基于点质量 Wasserstein 距离（推土机距离（Earth Mover’s distance））的简单社区强度指标 (CSI)

定义：

对于所有边 $(u, v) \in E$ ，以及来自 ECG 的 $W_P(u, v)$ ，我们定义：
$\cdot \frac{1}{|E|} \sum_{(u, v) \in E} \min \left(W_{\mathcal{P}}(u, v), 1-W_{\mathcal{P}}(u, v)\right)$
使得 $0 \leq CS I \leq 1$

关联强度：

从图上直观看出高 ECG 权重表示强关联
从经验上比较 ECG 权重和三角形出现次数：正相关关系

我们可以使用 ECG 权重作为自我网络的替代方案来放大种子节点

给定一个种子节点 v：

确定它所属的集群
删除所有 ECG 权重低于某个阈值 τ 的边
放大包含 v 的连通分量
增加 τ 可以对其进一步放大

——使用此方法可以很好地保留ground truth里面的真实同社区节点

异常检测

最近提出了CADA（community-aware anomaly detection社团感知异常检测）

CADA：

对于每个节点 $v \in V$ ，令：

$N (v)$ ：v 的邻居数。
$N_c(v)$ ： v 属于出现次数最多社区的邻居数（通过图聚类）。

$CADA_x(v) = \frac{N(v)} {N_c(v)}$

—— $x ∈ \{IM, ML\}$ ：即InfoMap算法和Louvain算法

实验：

原论文仅在 γ1 = 3、 γ2 = 2 的 LFR 图上验证了他们的算法——生成的是大小均一的小社区
我们用 ECG 重新审视了这种方法，并为幂律指数提供了更多值
对于每个图，我们添加了 200 个具有与 LFR 中相同的度分布的随机异常节点（随机边）
ECG算法表现都比较好

AUC（Area Under Curve）被定义为ROC曲线下与坐标轴围成的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。AUC越接近1.0，检测方法真实性越高;等于0.5时，则真实性最低，无应用价值。

你可能感兴趣的:(复杂网络夏令营,聚类,算法)

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
顺时针旋转N * N 的矩阵忆杰算法 Python 矩阵 python 算法
顺时针旋转题目描述数据范围实现逻辑代码实现题目描述有一个NxN整数矩阵，请编写一个算法，将矩阵顺时针旋转90度。给定一个NxN的矩阵，和矩阵的阶数N,请返回旋转后的NxN矩阵。数据范围0852789963'''#第N列逆序后变成第N行#或者是第i行变成第N-i-1列代码实现classSolution:#列转换为行defline2Row(self,mat,n):arr=[]forlineinrang
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
【经典面试题】【JVM与性能调优】垃圾回收算法（标记-清除算法/复制算法/标记-整理算法/CMS/G1/ZGC）本本本添哥归档 -Inbox1 001 -基础开发能力面试题目汇总 jvm 算法
JVM自动管理内存，当对象不再被引用时，垃圾回收器（GarbageCollector）会自动释放这些对象占用的内存。标记-清除算法（Mark-Sweep）：标记垃圾再清除，会产生碎片。复制算法（Copying）：将存活对象复制到新区域，适合新生代，无碎片但浪费空间。标记-整理算法（Mark-Compact）：标记后将存活对象移到一端，清除另一端，适合老年代。分代收集算法（GenerationalC
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
CMS垃圾回收器+G1垃圾回收器+ZGC垃圾回收器详解及对比 weixin_43751710 jvm java 算法
一、CMS收集器CMS(ConcurrentMarkSweep)收集器是一种以获取最短回收停顿时间为目标的收集器，是一款针对老年代的垃圾回收器，一般和Parallel回收器（一款新生代回收器，是使用复制算法的收集器，又是并行的多线程收集器，收集时会Stoptheworld）配合使用。1.工作过程从名字（包含“MarkSweep”）上就可以看出CMS收集器是基于标记-清除算法实现的，它的运作整个过程
负载均衡-加权随机算法 BP白朴 Nginx 负载均衡 java 算法服务器
负载均衡-加权随机算法由于访问概率大致相同，所以如果部分服务器性能不一致的话，容易导致性能差的服务器压力过大，所以要根据服务器性能不一致的情况，给性能好的服务器多处理请求，给差的少分配请求（能者多劳）所以就需要在随机算法的基础上给每台服务器设置权重，延伸为加权随机算法1、将应用服务器集群的IP存到Map里,每个IP对应有一个权重2、创建一个List,来将所有权重下的IP存到list里面如：192.
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
CMS垃圾回收器和G1垃圾回收器区别_g1cms垃圾回收器区别 2401_89191885 jvm
该类所有的实例都已经被回收，也就是Java堆中不存在该类的任何实例；加载该类的ClassLoader已经被回收；该类对应的java.lang.Class对象没有在任何地方被引用，无法在任何地方通过反射访问该类的方法。3.常见的垃圾回收算法1、Mark-Sweep（标记-清除算法）：（1）思想：标记清除算法分为两个阶段，标记阶段和清除阶段。标记阶段任务是标记出所有需要回收的对象，清除阶段就是清除被标
【数据结构】--ArrayList与顺序表 bubu__ 数据结构数据结构
文章目录1.线性表2.顺序表3.ArrayList简介4.MyArrayList的实现5.ArrayList使用5.1ArrayList的构造5.2ArrayList常见操作5.3ArrayList的遍历5.4ArrayList的扩容机制6.ArrayList的具体使用6.1简单的洗牌算法6.2杨辉三角1.线性表线性表（linearlist）是n个具有相同特性的数据元素的有限序列。线性表是一种在实
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
数据结构2-集合类ArrayList与洗牌算法
文章目录★引言：一.MyArrayList模拟实现（一）IList（二）MyArrayList（1）add(Tdata)（2）add(intpos,Tdata)（3）IllgalPosException（4）indexOf(ObjecttoFind)（5）contains(ObjecttoFind)（6）get(intpos)（7）set(intpos,Tvalue)（8）remove(Objec
【春招笔试真题】饿了么2025.03.07-算法岗真题春秋招笔试突围最新互联网春秋招试题合集算法代理模式
第一题：数据特征最大化1️⃣：找出数组中的最大元素，返回其平方难度：简单这是一道技巧性题目，乍看需要枚举所有子数组计算异或和和最大公约数。但通过分析可以发现，对任意单元素子数组，其异或值和最大公约数都是元素本身，因此乘积是元素的平方。可以证明，最大元素的平方就是整个问题的最优解。时间复杂度O(n)。第二题：同质接龙字符串1️⃣：记忆化搜索+动态规划2️⃣：使用状态编码降低存储复杂度难度：中等这道题
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla