绝不原创的飞龙

Python 生物信息学秘籍第三版（四）

原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe

译者：飞龙

协议：CC BY-NC-SA 4.0

第十一章：生物信息学中的机器学习

机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应用。在本章中，我们将从生物信息学的角度介绍机器学习的概念。

鉴于机器学习是一个非常复杂的主题，足以填满一本书，在这里我们打算采用直观的方法，让你大致了解一些机器学习技术如何帮助解决生物学问题。如果你发现这些技术有用，你将理解基本概念，并可以进一步阅读更详细的文献。

如果你使用的是 Docker，由于本章中的所有库对于数据分析都是基础库，它们都可以在 Docker 镜像tiagoantao/bioinformatics_ml中找到。

在本章中，我们将覆盖以下配方：

用 PCA 示例介绍 scikit-learn
使用 PCA 聚类来分类样本
使用决策树探索乳腺癌特征
使用随机森林预测乳腺癌结果

用 PCA 示例介绍 scikit-learn

PCA 是一种统计方法，用于将多个变量的维度降低到一个较小的、线性无关的子集。在第六章中，我们已经看过基于使用外部应用程序的 PCA 实现。在这个配方中，我们将为种群遗传学实现相同的 PCA，但将使用scikit-learn库。Scikit-learn 是 Python 中用于机器学习的基础库之一，本配方是对该库的介绍。PCA 是一种无监督的机器学习方法——我们不提供样本的类别信息。我们将在本章的其他配方中讨论有监督的技术。

提醒一下，我们将计算来自 HapMap 项目的 11 个人类种群的 PCA。

准备工作

你需要运行第六章中的第一个配方，以生成hapmap10_auto_noofs_ld_12 PLINK 文件（等位基因记录为 1 和 2）。从种群遗传学的角度来看，我们需要 LD 修剪标记来生成可靠的 PCA。我们这里不使用后代样本，因为它可能会导致结果偏差。我们的配方将需要pygenomics库，可以使用以下命令进行安装：

pip install pygenomics

代码位于Chapter10/PCA.py笔记本中。

如何实现…

看一下以下步骤：

我们首先加载样本的元数据。在我们的案例中，我们将加载每个样本所属的人类种群：

import os
from sklearn.decomposition import PCA
import numpy as np
from genomics.popgen.pca import plot
f = open('../Chapter06/relationships_w_pops_041510.txt')
ind_pop = {}
f.readline()  # header
for l in f:
    toks = l.rstrip().split('\t')
    fam_id = toks[0]
    ind_id = toks[1]
    pop = toks[-1]
    ind_pop['/'.join([fam_id, ind_id])] = pop
f.close()

我们现在获得了个体的顺序以及我们将要处理的 SNP 数量：

f = open('../Chapter06/hapmap10_auto_noofs_ld_12.ped')
ninds = 0
ind_order = []
for line in f:
    ninds += 1
    toks = line[:100].replace(' ', '\t').split('\t')
    fam_id = toks[0]
    ind_id = toks[1]
    ind_order.append('%s/%s' % (fam_id, ind_id))
nsnps = (len(line.replace(' ', '\t').split('\t')) - 6) // 2
f.close()

我们创建将要输入 PCA 的数组：

pca_array = np.empty((ninds, nsnps), dtype=int)
print(pca_array.shape)
f = open('../Chapter06/hapmap10_auto_noofs_ld_12.ped')
for ind, line in enumerate(f):
    snps = line.replace(' ', '\t').split('\t')[6:]
    for pos in range(len(snps) // 2):
        a1 = int(snps[2 * pos])
        a2 = int(snps[2 * pos])
        my_code = a1 + a2 - 2
        pca_array[ind, pos] = my_code
f.close()

最后，我们计算包含最多八个成分的 PCA。然后，使用transform方法获取所有样本的 8 维坐标。
```
my_pca = PCA(n_components=8)
my_pca.fit(pca_array)
trans = my_pca.transform(pca_array)
```

最后，我们绘制 PCA 图：

sc_ind_comp = {}
for i, ind_pca in enumerate(trans):
    sc_ind_comp[ind_order[i]] = ind_pca
plot.render_pca_eight(sc_ind_comp, cluster=ind_pop)

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_10_01.jpg

图 10.1 - 由 scikit-learn 生成的我们数据集的 PC1 到 PC8

还有更多…

对于科学期刊中的发布，我建议使用第六章中的食谱，因为它基于一个已发布的、广受好评的方法。也就是说，这段代码的结果在定性上是相似的，并且以非常类似的方式对数据进行了聚类（如果你与第六章中的图进行比较，垂直轴方向的反转对于解读 PCA 图表而言是无关紧要的）。

使用 PCA 进行聚类来对样本进行分类

基因组学中的 PCA 可以让我们看到样本如何聚类。在许多情况下，同一群体的个体会聚集在图表的同一区域。但我们希望进一步预测新个体在群体中的位置。为此，我们将从 PCA 数据开始，因为它进行了降维处理—使得处理数据更为简便—然后应用 K-Means 聚类算法来预测新样本的位置。我们将使用与上述食谱相同的数据集。我们将使用除了一个样本外的所有样本来训练算法，然后预测剩下的样本位置。

K-Means 聚类可以是监督算法的一个例子。在这类算法中，我们需要一个训练数据集，以便算法能够学习。训练算法之后，它将能够对新样本预测某个结果。在我们的案例中，我们希望能够预测群体。

警告

当前的食谱旨在作为对监督算法及其背后概念的温和介绍。我们训练算法的方式远非最佳。关于如何正确训练一个监督算法的问题将在本章最后一个食谱中提到。

准备工作

我们将使用与之前食谱中相同的数据。此食谱的代码可以在Chapter10/Clustering.py中找到。

如何操作…

让我们来看一下：

我们首先加载群体信息——这与我们在之前的食谱中所做的相似：

import os
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import numpy as np
from genomics.popgen.pca import plot
f = open('../Chapter06/relationships_w_pops_041510.txt')
ind_pop = {}
f.readline()  # header
for l in f:
    toks = l.rstrip().split('\t')
    fam_id = toks[0]
    ind_id = toks[1]
    pop = toks[-1]
    ind_pop['/'.join([fam_id, ind_id])] = pop
f.close()

f = open('../Chapter06/hapmap10_auto_noofs_ld_12.ped')
ninds = 0
ind_order = []
for line in f:
    ninds += 1
    toks = line[:100].replace(' ', '\t').split('\t') #  for speed
    fam_id = toks[0]
    ind_id = toks[1]
    ind_order.append('%s/%s' % (fam_id, ind_id))
nsnps = (len(line.replace(' ', '\t').split('\t')) - 6) // 2
print (nsnps)
f.close()

现在，我们将所有样本数据（SNPs）加载到一个 NumPy 数组中：

all_array = np.empty((ninds, nsnps), dtype=int)
f = open('../Chapter06/hapmap10_auto_noofs_ld_12.ped')
for ind, line in enumerate(f):
    snps = line.replace(' ', '\t').split('\t')[6:]
    for pos in range(len(snps) // 2):
        a1 = int(snps[2 * pos])
        a2 = int(snps[2 * pos])
        my_code = a1 + a2 - 2
        all_array[ind, pos] = my_code
f.close()

我们将数组分成两个数据集，即包含所有个体（除一个外）作为训练集，和单个个体用于测试的案例：
```
predict_case = all_array[-1, :]
pca_array = all_array[:-1,:]

last_ind = ind_order[-1]
last_ind, ind_pop[last_ind]
```

我们的测试案例是个体 Y076/NA19124，我们知道他属于约鲁巴族群体。

现在，我们计算用于 K-Means 聚类的训练集的 PCA：

my_pca = PCA(n_components=2)
my_pca.fit(pca_array)
trans = my_pca.transform(pca_array)

sc_ind_comp = {}
for i, ind_pca in enumerate(trans):
    sc_ind_comp[ind_order[i]] = ind_pca
plot.render_pca(sc_ind_comp, cluster=ind_pop)

这是输出结果，将有助于检查聚类结果：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_10_02.jpg

图 10.2 - PC1 和 PC2 与按种群编码的颜色

在我们开始计算 K 均值聚类之前，先写一个函数来绘制运行算法后的聚类面：

def plot_kmeans_pca(trans, kmeans):
    x_min, x_max = trans[:, 0].min() - 1, trans[:, 0].max() + 1
    y_min, y_max = trans[:, 1].min() - 1, trans[:, 1].max() + 1
    mesh_x, mesh_y = np.meshgrid(np.arange(x_min, x_max, 0.5), np.arange(y_min, y_max, 0.5))

    k_surface = kmeans.predict(np.c_[mesh_x.ravel(), mesh_y.ravel()]).reshape(mesh_x.shape)
    fig, ax = plt.subplots(1,1, dpi=300)
    ax.imshow(
        k_surface, origin="lower", cmap=plt.cm.Pastel1,
        extent=(mesh_x.min(), mesh_x.max(), mesh_y.min(), mesh_y.max()),
    )
    ax.plot(trans[:, 0], trans[:, 1], "k.", markersize=2)
    ax.set_title("KMeans clustering of PCA data")
    ax.set_xlim(x_min, x_max)
    ax.set_ylim(y_min, y_max)
    ax.set_xticks(())
    ax.set_yticks(())
    return ax

现在让我们用我们的样本来拟合算法。因为我们有 11 个人群，我们将训练 11 个簇：
```
kmeans11 = KMeans(n_clusters=11).fit(trans)
plot_kmeans_pca(trans, kmeans11)
```

这里是输出结果：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_10_03.jpg

图 10.3 - 11 个簇的簇面

如果你与这里的图进行比较，你会直观地看到这个聚类没有多大意义：它并没有很好地映射到已知的人群上。有人可能会认为，使用 11 个簇的聚类算法并不是很有用。

提示

scikit-learn 中实现了许多其他聚类算法，在多种情况下，它们的表现可能优于 K 均值聚类。你可以在scikit-learn.org/stable/modules/clustering.xhtml找到它们。值得怀疑的是，在这个特定的案例中，任何替代方法都不太可能在 11 个簇的情况下表现得更好。

尽管看起来 K 均值聚类无法解决 11 个人群的划分，但如果我们使用不同数量的簇，或许它仍然可以提供一些预测。仅通过查看图表，我们可以看到四个独立的块。如果我们使用四个簇，会得到什么结果呢？
```
kmeans4 = KMeans(n_clusters=4).fit(trans)
plot_kmeans_pca(trans, kmeans4)
```

这里是输出结果：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_10_04.jpg

图 10.4 - 四个簇的簇面

四个群体现在大致清晰了。但它们直观上有意义吗？如果有，那么我们可以利用这种聚类方法。事实上，它们确实有意义。左侧的簇由非洲人口组成，顶部的簇由欧洲人组成，底部的簇由东亚人组成。中间的簇最为难以理解，因为它包含了古吉拉特人和墨西哥后裔，但这种混合最初来自于主成分分析（PCA），而非聚类本身所致。

让我们看看我们漏掉的那个单独个案的预测结果：

pca_predict = my_pca.transform([predict_case])
kmeans4.predict(pca_predict)

我们的样本被预测为属于簇 1。现在我们需要进一步挖掘一下。

让我们来看看簇 1 代表什么。我们取训练集中的最后一个个体，他也是一名约鲁巴人，看看他被分配到了哪个簇：
```
last_train = ind_order[-2]
last_train, ind_pop[last_train]
kmeans4.predict(trans)[0]
```

确实是簇 1，因此预测是正确的。

还有更多…

值得重申的是，我们正在努力实现对机器学习的直观理解。在这个阶段，你应该对监督学习能够带来什么有所了解，并且已经掌握了一个聚类算法的使用示例。关于训练机器学习算法的过程，还有很多内容值得探讨，我们将在最后的食谱中部分揭示。

使用决策树探索乳腺癌特征

当我们接收到一个数据集时，第一个问题之一就是决定从哪里开始分析。一开始，往往会有一种迷茫的感觉，不知道该先做什么。这里，我们将展示基于决策树的探索性方法。决策树的最大优点是，它们会给我们提供构建决策树的规则，让我们初步了解数据的情况。

在这个示例中，我们将使用一个包含乳腺癌患者特征观察的数据集。该数据集包含 699 条数据，包含如肿块厚度、细胞大小的均匀性或染色质类型等信息。结果是良性或恶性肿瘤。特征值被编码为 0 到 10 之间的值。关于该项目的更多信息可以在archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28diagnostic%29中找到。

准备工作

我们将下载数据及其文档：

wget http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data
wget http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names

数据文件的格式为 CSV 文件。关于内容的信息可以在第二个下载的文件中找到。

这个代码可以在Chapter10/Decision_Tree.py中找到。

如何操作…

按照以下步骤操作：

我们做的第一件事是移除一小部分数据不完整的个体：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import tree
f = open('breast-cancer-wisconsin.data')
w = open('clean.data', 'w')
for line in f:
    if line.find('?') > -1:
        continue
    w.write(line)
f.close()
w.close()

提示

移除数据不完整的个体在这种情况下是合适的，因为它们只是数据集的一小部分，而且我们只是进行探索性分析。如果数据缺失很多，或者我们需要做更严格的分析，你需要使用处理缺失数据的方法，但我们这里不会进行探讨。

现在我们将读取数据，为所有列命名：

column_names = [
    'sample_id', 'clump_thickness', 'uniformity_cell_size',
    'uniformity_cell shape', 'marginal_adhesion',
    'single_epithelial_cell_size', 'bare_nuclei',
    'bland_chromatin', 'normal_nucleoli', 'mitoses',
    'class'
]
samples = pd.read_csv('clean.data', header=None, names=column_names, index_col=0)

现在我们将特征与结果分离，并使用 0 和 1 重新编码结果：

training_input = samples.iloc[:,:-1]
target = samples.iloc[:,-1].apply(lambda x: 0 if x == 2 else 1)

现在让我们基于这些数据创建一个最大深度为 3 的决策树：

clf = tree.DecisionTreeClassifier(max_depth=3)
clf.fit(training_input, target)

让我们先看看哪些特征最重要：

importances = pd.Series(
    clf.feature_importances_ * 100,
    index=training_input.columns).sort_values(ascending=False)
importances

以下是按重要性排名的特征：

uniformity_cell_size           83.972870
uniformity_cell shape           7.592903
bare_nuclei                     4.310045
clump_thickness                 4.124183
marginal_adhesion               0.000000
single_epithelial_cell_size     0.000000
bland_chromatin                 0.000000
normal_nucleoli                 0.000000
mitoses                         0.000000

记住，这只是探索性分析。在下一个配方中，我们将尝试生成更可靠的排名。底部特征为零的原因是我们要求最大深度为 3，在这种情况下，可能并非所有特征都会被使用。

我们可以对实现的准确性进行一些原生分析：
```
100 * clf.score(training_input, target)
```

我们得到的性能为 96%。我们不应该用训练集测试算法，因为这会导致结果较为循环。我们将在下一个配方中重新审视这一点。

最后，让我们绘制决策树：

fig, ax = plt.subplots(1, dpi=300)
tree.plot_tree(clf,ax=ax, feature_names=training_input.columns, class_names=['Benign', 'Malignant'])

这会产生以下输出：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_10_05.jpg

图 10.5 - 乳腺癌数据集的决策树

让我们从根节点开始看：它的标准是uniformity_cell_size < 2.5，分类为良性。分裂树的主要特征是细胞大小的一致性。根节点的良性分类仅仅是因为数据集中的大多数样本都是良性的。现在看一下根节点右侧的节点：它有 265 个样本，其中大部分是恶性的，并且标准为uniformity_cell_shape < 2.5。

这些规则帮助你初步理解可能驱动数据集的因素。决策树的精确度不是很高，所以将这些视为你的初步步骤。

使用随机森林预测乳腺癌结果

现在我们将使用随机森林预测一些患者的结果。随机森林是一种集成方法（它将使用多个机器学习算法的实例），通过多个决策树得出关于数据的稳健结论。我们将使用与前一个例子相同的例子：乳腺癌特征和结果。

这个例子有两个主要目标：介绍随机森林及机器学习算法训练中的问题。

准备开始

这个例子的代码可以在Chapter10/Random_Forest.py找到。

如何操作…

看一下代码：

我们像前一个例子一样，首先去除缺失信息的样本：

import pandas as pd
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.tree import export_graphviz
f = open('breast-cancer-wisconsin.data')
w = open('clean.data', 'w')
for line in f:
    if line.find('?') > -1:
        continue
    w.write(line)
f.close()
w.close()

现在我们加载清理过的数据：

column_names = [
    'sample_id', 'clump_thickness', 'uniformity_cell_size',
    'uniformity_cell shape', 'marginal_adhesion',
    'single_epithelial_cell_size', 'bare_nuclei',
    'bland_chromatin', 'normal_nucleoli', 'mitoses',
    'class'
]
samples = pd.read_csv('clean.data', header=None, names=column_names, index_col=0)
samples

我们将数据分为特征和结果：

training_input = samples.iloc[:, :-1]
target = samples.iloc[:, -1]

我们创建一个分类器并将数据拟合到它：

clf = RandomForestClassifier(max_depth=3, n_estimators=200)
clf.fit(training_input, target)

这里最重要的参数是n_estimators：我们要求构建一个由 200 棵树组成的森林。

现在我们按重要性对特征进行排序：

importances = pd.Series(
    clf.feature_importances_ * 100,
    index=training_input.columns).sort_values(ascending=False)
importances

以下是输出：

uniformity_cell_size           30.422515
uniformity_cell shape          21.522259
bare_nuclei                    18.410346
single_epithelial_cell_size    10.959655
bland_chromatin                 9.600714
clump_thickness                 3.619585
normal_nucleoli                 3.549669
marginal_adhesion               1.721133
mitoses                         0.194124

结果是非确定性的，意味着你可能会得到不同的结果。另外，请注意，随机森林与前一个例子中的决策树有很大的不同。这是预期之中的，因为决策树是一个单一的估计器，而随机森林权衡了 200 棵树，因此更加可靠。

我们可以对这个案例进行评分：
```
clf.score(training_input, target)
```

我得到的结果是 97.95%。你可能会得到稍微不同的值，因为算法是随机的。正如我们在前一个例子中所说，从训练集获取得分是一个循环过程，远非最佳实践。

为了更真实地了解算法的准确性，我们需要将数据分为两部分——训练集和测试集：

for test_size in [0.01, 0.1, 0.2, 0.5, 0.8, 0.9, 0.99]:
    X_train, X_test, y_train, y_test = train_test_split(
        trainning_input, target, test_size=test_size)
    tclf = RandomForestClassifier(max_depth=3)
    tclf.fit(X_train, y_train)
    score = tclf.score(X_test, y_test)
    print(f'{1 - test_size:.1%} {score:.2%}')

输出结果如下（记住你会得到不同的值）：

99.0% 71.43%
90.0% 94.20%
80.0% 97.81%
50.0% 97.66%
20.0% 96.89%
10.0% 94.80%
1.0% 92.02%

如果你仅用 1%的数据进行训练，你的准确率只有 71%，而如果你使用更多的数据，准确率会超过 90%。注意，准确率并不随着训练集的大小单调增加。决定训练集的大小是一个复杂的问题，涉及许多因素，可能会导致意想不到的副作用。

还有更多…

我们仅仅触及了训练和测试机器学习算法的表面。例如，监督数据集通常会被分成 3 部分，而不是 2 部分（训练、测试和交叉验证）。在训练算法时，你需要考虑许多其他问题，还有更多种类的算法。在本章中，我们试图培养理解机器学习的基本直觉，但如果你打算继续这条路线，这只是你的起点。

第十二章：使用 Dask 和 Zarr 进行并行处理

生物信息学数据集正在以指数速度增长。基于标准工具（如 Pandas）的数据分析策略假设数据集能够装入内存（尽管会有一些外部存储分析的处理），或者假设单台机器能够高效地处理所有数据。不幸的是，这对于许多现代数据集来说并不现实。

在本章中，我们将介绍两种能够处理非常大数据集和昂贵计算的库：

Dask 是一个支持并行计算的库，可以扩展到从单台计算机到非常大的云环境和集群环境。Dask 提供了与 Pandas 和 NumPy 类似的接口，同时允许你处理分布在多台计算机上的大数据集。
Zarr 是一个存储压缩和分块多维数组的库。正如我们将看到的，这些数组专为处理在大型计算机集群中处理的大数据集而设计，同时在需要时也能在单台计算机上处理数据。

我们的食谱将使用蚊子基因组学的数据介绍这些高级库。你应该将这段代码作为起点，帮助你走上处理大数据集的道路。大数据集的并行处理是一个复杂的话题，而这只是你旅程的开始——而非结束。

因为所有这些库对于数据分析都至关重要，如果你正在使用 Docker，它们都可以在 tiagoantao/bioinformatics_dask Docker 镜像中找到。

在本章中，我们将介绍以下食谱：

使用 Zarr 读取基因组学数据
使用 Python 多进程进行数据并行处理
使用 Dask 基于 NumPy 数组处理基因组数据
使用 dask.distributed 调度任务

使用 Zarr 读取基因组学数据

Zarr (zarr.readthedocs.io/en/stable/) 将基于数组的数据（如 NumPy）存储在磁盘和云存储的层次结构中。Zarr 用来表示数组的数据结构不仅非常紧凑，而且还支持并行读取和写入，这一点我们将在接下来的食谱中看到。在本食谱中，我们将读取并处理来自按蚊基因组 1000 基因组计划的数据（malariagen.github.io/vector-data/ag3/download.xhtml）。在这里，我们将仅进行顺序处理，以便引入 Zarr；在接下来的食谱中，我们将进行并行处理。我们的项目将计算单一染色体上所有基因位置的缺失数据。

准备工作

按照 cloud.google.com/storage/docs/gsutil_install 上提供的指导，从 gsutil 中获取按蚊 1000 基因组数据。在安装了 gsutil 后，使用以下代码行下载数据（约 2 千兆字节 (GB)）：

mkdir -p data/AG1000G-AO/
gsutil -m rsync -r \
         -x '.*/calldata/(AD|GQ|MQ)/.*' \
         gs://vo_agam_release/v3/snp_genotypes/all/AG1000G-AO/ \
         data/AG1000G-AO/ > /dev/null

我们从项目中下载了一个样本子集。下载数据后，处理它的代码可以在Chapter11/Zarr_Intro.py中找到。

如何操作…

查看以下步骤以开始：

让我们首先检查一下 Zarr 文件中提供的结构：

import numpy as np
import zarr 
mosquito = zarr.open('data/AG1000G-AO')
print(mosquito.tree())

我们从打开 Zarr 文件开始（正如我们很快会看到的，这可能实际上并不是一个文件）。之后，我们会打印出里面可用的数据树：

/
├── 2L
│   └── calldata
│       └── GT (48525747, 81, 2) int8
├── 2R
│   └── calldata
│       └── GT (60132453, 81, 2) int8
├── 3L
│   └── calldata
│       └── GT (40758473, 81, 2) int8
├── 3R
│   └── calldata
│       └── GT (52226568, 81, 2) int8
├── X
│   └── calldata
│       └── GT (23385349, 81, 2) int8
└── samples (81,) |S24

Zarr 文件包含五个数组：四个对应蚊子的染色体——2L、2R、3L、3R和X（Y不包括在内）——另一个包含文件中包含的 81 个样本。最后一个数组包含样本名称——我们在这个文件中有 81 个样本。染色体数据由 8 位整数（int8）组成，样本名称则是字符串。

现在，让我们探索2L染色体的数据。首先来看一些基本信息：
```
gt_2l = mosquito['/2L/calldata/GT']
gt_2l
```

这是输出：

<zarr.core.Array '/2L/calldata/GT' (48525747, 81, 2) int8>

我们有一个包含4852547个 SNP 和81个样本的数组。对于每个 SNP 和样本，我们有2个等位基因。

现在我们来检查数据是如何存储的：
```
gt_2l.info
```

输出看起来是这样的：

Name               : /2L/calldata/GT
Type               : zarr.core.Array
Data type          : int8
Shape              : (48525747, 81, 2)
Chunk shape        : (300000, 50, 2)
Order              : C
Read-only          : False
Compressor         : Blosc(cname='lz4', clevel=5, shuffle=SHUFFLE, blocksize=0)
Store type         : zarr.storage.DirectoryStore
No. bytes          : 7861171014 (7.3G)
No. bytes stored   : 446881559 (426.2M)
Storage ratio      : 17.6
Chunks initialized : 324/324

这里有很多内容需要解析，但现在我们将专注于存储类型、存储的字节数和存储比率。Store type的值是zarr.storage.DirectoryStore，所以数据并不在一个单独的文件中，而是存储在一个目录内。数据的原始大小是7.3 GB！但是 Zarr 使用压缩格式，将数据的大小压缩到426.2 17.6。

让我们来看看数据是如何存储在目录中的。如果你列出AG1000G-AO目录的内容，你会发现以下结构：

.
├── 2L
│   └── calldata
│       └── GT
├── 2R
│   └── calldata
│       └── GT
├── 3L
│   └── calldata
│       └── GT
├── 3R
│   └── calldata
│       └── GT
├── samples
└── X
    └── calldata
        └── GT

如果你列出2L/calldata/GT目录的内容，你会发现很多文件在编码该数组：
```
0.0.0
0.1.0
1.0.0
...
160.0.0
160.1.0
```

2L/calldata/GT目录中有 324 个文件。记住，在前一步中我们有一个叫做Chunk shape的参数，它的值是(300000, 50, 2)。

Zarr 将数组拆分成多个块——这些块比加载整个数组更容易在内存中处理。每个块包含 30000x50x2 个元素。考虑到我们有 48525747 个 SNP，我们需要 162 个块来表示这些 SNP 的数量（48525747/300000 = 161.75），然后乘以 2 以表示样本的数量（81 个样本/每块 50 个 = 1.62）。因此，我们最终会得到 162*2 个块/文件。

提示

分块是一个广泛应用的技术，用于处理不能完全一次性加载到内存中的数据。这包括许多其他库，如 Pandas 或 Zarr。稍后我们将看到一个 Zarr 的例子。更大的观点是，你应该意识到分块的概念，因为它在许多需要大数据的场景中都有应用。

在我们加载 Zarr 数据进行处理之前，先创建一个函数来计算一个块的基本基因组统计信息。我们将计算缺失值、祖先纯合子数量和异合子数量：

def calc_stats(my_chunk):
    num_miss = np.sum(np.equal(my_chunk[:,:,0], -1), axis=1)
    num_anc_hom = np.sum(
        np.all([
            np.equal(my_chunk[:,:,0], 0),
            np.equal(my_chunk[:,:,0], my_chunk[:,:,1])], axis=0), axis=1)
    num_het = np.sum(
        np.not_equal(
            my_chunk[:,:,0],
            my_chunk[:,:,1]), axis=1)
    return num_miss, num_anc_hom, num_het

如果你查看前面的函数，你会注意到没有任何与 Zarr 相关的内容：它只是 NumPy 代码。Zarr 有一个非常轻量的应用程序接口（API），它将 NumPy 中的大多数数据暴露出来，使得如果你熟悉 NumPy，它非常容易使用。

最后，让我们遍历数据——也就是遍历我们的数据块来计算统计信息：

complete_data = 0
more_anc_hom = 0
total_pos = 0
for chunk_pos in range(ceil(max_pos / chunk_pos_size)):
    start_pos = chunk_pos * chunk_pos_size
    end_pos = min(max_pos + 1, (chunk_pos + 1) * chunk_pos_size)
    my_chunk = gt_2l[start_pos:end_pos, :, :]
    num_samples = my_chunk.shape[1]
    num_miss, num_anc_hom, num_het = calc_stats(my_chunk)
    chunk_complete_data = np.sum(np.equal(num_miss, 0))
    chunk_more_anc_hom = np.sum(num_anc_hom > num_het)
    complete_data += chunk_complete_data
    more_anc_hom += chunk_more_anc_hom
    total_pos += (end_pos - start_pos)
print(complete_data, more_anc_hom, total_pos)

大多数代码负责管理数据块，并涉及算术运算来决定访问数组的哪部分。就准备好的 Zarr 数据而言，重要的部分是my_chunk = gt_2l[start_pos:end_pos, :, :]这一行。当你切片 Zarr 数组时，它会自动返回一个 NumPy 数组。

提示

在将数据加载到内存时要非常小心。记住，大多数 Zarr 数组的大小将远大于你可用的内存，因此如果尝试加载，可能会导致应用程序甚至计算机崩溃。例如，如果你执行all_data = gt_2l[:, :, :]，你将需要大约 8 GB 的空闲内存来加载它——正如我们之前看到的，数据大小为 7.3 GB。

还有更多…

Zarr 具有比这里展示的更多功能，虽然我们将在接下来的示例中探索一些其他功能，但仍有一些可能性是你应该了解的。例如，Zarr 是少数几个允许并发写入数据的库之一。你还可以更改 Zarr 表示的内部格式。

正如我们在这里看到的，Zarr 能够以非常高效的方式压缩数据——这是通过使用 Blosc 库实现的（www.blosc.org/）。由于 Blosc 的灵活性，你可以更改 Zarr 数据的内部压缩算法。

另见

Zarr 有替代格式——例如，分层数据格式 5（HDF5）（en.wikipedia.org/wiki/Hierarchical_Data_Format）和网络公共数据格式（NetCDF）（en.wikipedia.org/wiki/NetCDF）。虽然这些格式在生物信息学领域之外更为常见，但它们功能较少——例如，缺乏并发写入功能。

使用 Python 多处理进行数据并行处理

处理大量数据时，一种策略是并行处理，以便利用所有可用的中央处理单元（CPU）的计算能力，因为现代计算机通常有多个核心。在理论上的最佳情况下，如果你的计算机有八个核心，你可以通过并行处理获得八倍的性能提升。

不幸的是，典型的 Python 代码只能使用一个核心。话虽如此，Python 具有内置功能来利用所有可用的 CPU 资源；事实上，Python 提供了几种方法来实现这一点。在本配方中，我们将使用内置的multiprocessing模块。这里提供的解决方案在单台计算机上运行良好，并且如果数据集能适应内存的话也没有问题，但如果你想要在集群或云端扩展，应该考虑使用 Dask，我们将在接下来的两篇配方中介绍它。

我们在这里的目标仍然是计算与缺失值和杂合度相关的统计信息。

准备工作

我们将使用与之前的配方相同的数据。该配方的代码可以在Chapter11/MP_Intro.py中找到。

如何做…

请按照以下步骤开始：

我们将使用与之前的配方完全相同的函数来计算统计信息——这是一个高度依赖 NumPy 的函数：

import numpy as np
import zarr
def calc_stats(my_chunk):
    num_miss = np.sum(np.equal(my_chunk[:,:,0], -1), axis=1)
    num_anc_hom = np.sum(
        np.all([
            np.equal(my_chunk[:,:,0], 0),
            np.equal(my_chunk[:,:,0], my_chunk[:,:,1])], axis=0), axis=1)
    num_het = np.sum(
        np.not_equal(
            my_chunk[:,:,0],
            my_chunk[:,:,1]), axis=1)
    return num_miss, num_anc_hom, num_het

让我们访问我们的蚊子数据：

mosquito = zarr.open('data/AG1000G-AO')
gt_2l = mosquito['/2L/calldata/GT']

尽管我们使用相同的函数来计算统计信息，但我们对整个数据集的处理方式将有所不同。首先，我们计算所有将调用calc_stats的区间。这些区间将被设计成与变异体的块划分完美匹配：

chunk_pos_size = gt_2l.chunks[0]
max_pos = gt_2l.shape[0]
intervals = []
for chunk_pos in range(ceil(max_pos / chunk_pos_size)):
    start_pos = chunk_pos * chunk_pos_size
    end_pos = min(max_pos + 1, (chunk_pos + 1) * chunk_pos_size)
    intervals.append((start_pos, end_pos))

我们的区间列表必须与磁盘上的块划分相关。这项计算会很高效，只要这个映射尽可能接近。

现在，我们将把计算每个区间的代码分离到一个函数中。这一点很重要，因为multiprocessing模块将在它创建的每个进程中多次执行这个函数：

def compute_interval(interval):
    start_pos, end_pos = interval
    my_chunk = gt_2l[start_pos:end_pos, :, :]
    num_samples = my_chunk.shape[1]
    num_miss, num_anc_hom, num_het = calc_stats(my_chunk)
    chunk_complete_data = np.sum(np.equal(num_miss, 0))
    chunk_more_anc_hom = np.sum(num_anc_hom > num_het)
    return chunk_complete_data, chunk_more_anc_hom

我们现在终于将让代码在多个核心上执行：

with Pool() as p:
    print(p)
    chunk_returns = p.map(compute_interval, intervals)
    complete_data = sum(map(lambda x: x[0], chunk_returns))
    more_anc_hom = sum(map(lambda x: x[1], chunk_returns))
    print(complete_data, more_anc_hom)

第一行使用multiprocessing.Pool对象创建一个上下文管理器。Pool对象默认会创建多个编号为os.cpu_count()的进程。池提供了一个map函数，能够在所有创建的进程中调用我们的compute_interval函数。每次调用将处理一个区间。

还有更多…

本配方简要介绍了如何在 Python 中进行并行处理，而无需使用外部库。话虽如此，它展示了并发并行处理的最重要构建块。

由于 Python 中的线程管理方式，线程并不是实现真正并行处理的可行替代方案。纯 Python 代码无法通过多线程并行执行。

一些你可能使用的库——通常 NumPy 就是这样的——能够在执行顺序代码时利用所有底层处理器。确保在使用外部库时，不要过度占用处理器资源：当你有多个进程时，底层库也会使用多个核心。

另见

有关 multiprocessing 模块的讨论还有很多。你可以从标准文档开始了解：docs.python.org/3/library/multiprocessing.xhtml
要理解为什么基于 Python 的多线程不能充分利用所有 CPU 资源，请阅读有关 全局解释器锁 (GIL) 的内容：realpython.com/python-gil/.

使用 Dask 处理基于 NumPy 数组的基因组数据

Dask 是一个提供高级并行处理的库，可以从单个计算机扩展到非常大的集群或云操作。它还提供了处理比内存更大的数据集的能力。它能够提供与常见 Python 库如 NumPy、Pandas 或 scikit-learn 相似的接口。

我们将重复之前配方中的一个子集——即计算数据集中 SNP 的缺失情况。我们将使用 Dask 提供的类似于 NumPy 的接口。

在我们开始之前，请注意 Dask 的语义与 NumPy 或 Pandas 等库有很大不同：它是一个懒加载库。例如，当你指定一个等效于 np.sum 的调用时，你实际上并没有计算和求和，而是在未来会计算它的任务。让我们进入配方来进一步澄清这一点。

准备就绪

我们将以一种完全不同的方式重新分块 Zarr 数据。我们这么做的原因是为了在准备算法时能够可视化任务图。包含五个操作的任务图比包含数百个节点的任务图更容易可视化。为了实际目的，你不应该像我们这里做的那样将数据重新分块为如此小的块。实际上，如果你根本不重新分块这个数据集，也是完全可以的。我们这么做只是为了可视化的目的：

import zarr
mosquito = zarr.open('data/AG1000G-AO/2L/calldata/GT')
zarr.array(
    mosquito,
    chunks=(1 + 48525747 // 4, 81, 2),
    store='data/rechunk')

我们最终会得到非常大的块，虽然这对我们的可视化目的很有用，但它们可能太大而无法放入内存中。

此配方的代码可以在 Chapter11/Dask_Intro.py 中找到。

如何实现…

让我们首先加载数据并检查 DataFrame 的大小：

import numpy as np
import dask.array as da

mosquito = da.from_zarr('data/rechunk')
mosquito

如果你在 Jupyter 中执行，这将是输出结果：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_001.jpg

图 11.1 - Dask 数组的 Jupyter 输出，汇总我们的数据

完整的数组占用 7.32 GB。最重要的数字是块的大小：1.83 GB。每个工作节点需要有足够的内存来处理一个块。记住，我们这里只是使用了较少的块数，以便能够在这里绘制任务。

由于大块数据的大小，我们最终只得到了四个块。

我们尚未将任何内容加载到内存中：我们只是指定了最终想要执行的操作。我们正在创建一个任务图来执行，而不是立即执行——至少目前如此。

让我们来看看我们需要执行哪些任务来加载数据：
```
mosquito.visualize()
```

这是输出结果：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_002.jpg

图 11.2 - 加载我们的 Zarr 数组所需执行的任务

因此，我们有四个任务要执行，每个块对应一个任务。

现在，让我们看看计算每个块缺失值的函数：

def calc_stats(variant):
    variant = variant.reshape(variant.shape[0] // 2, 2)
    misses = np.equal(variant, -1)
    return misses

每个块的函数将在 NumPy 数组上操作。请注意区别：我们在主循环中使用的代码是针对 Dask 数组的，但在块级别，数据以 NumPy 数组的形式呈现。因此，这些块必须适配内存，因为 NumPy 需要如此。

后面，当我们实际使用这个函数时，我们需要一个二维（2D）数组。由于数组是三维（3D）的，我们需要对数组进行重塑：
```
mosquito_2d = mosquito.reshape(
    mosquito.shape[0],
    mosquito.shape[1] * mosquito.shape[2])
mosquito_2d.visualize()
```

这是当前的任务图：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_003.png

图 11.3 - 加载基因组数据并重塑的任务图

reshape 操作发生在 dask.array 层，而不是 NumPy 层，因此它仅向任务图中添加了节点。仍然没有执行。

现在，让我们准备执行这个函数——意味着在整个数据集上向我们的任务图中添加任务。有很多种执行方式；在这里，我们将使用 dask.array 提供的 apply_along_axis 函数，它基于 NumPy 中同名的函数：
```
max_pos = 10000000
stats = da.apply_along_axis(
    calc_stats, 1, mosquito_2d[:max_pos,:],
    shape=(max_pos,), dtype=np.int64)
stats.visualize()
```

目前，我们只打算研究前百万个位置。正如你在任务图中看到的，Dask 足够智能，只会对参与计算的块添加操作：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_004.jpg

图 11.4 - 包括统计计算在内的完整任务图

记住，在此之前我们还没有进行任何计算。现在是时候真正执行任务图了：
```
stats = stats.compute() 
```

这将启动计算。计算的具体方式是我们将在下一个配方中讨论的内容。

警告

由于块大小的问题，这段代码可能会导致你的计算机崩溃。至少需要 16 GB 内存才能保证安全。记住，你可以使用更小的块大小——而且你应该使用更小的块大小。我们之所以使用这样的块大小，是为了能够生成前面展示的任务图（否则，它们可能会有数百个节点，无法打印出来）。

还有更多内容…

我们没有在这里讨论如何优化 Dask 代码的策略——那将是另一本书的内容。对于非常复杂的算法，你需要进一步研究最佳实践。

Dask 提供的接口类似于其他常见的 Python 库，如 Pandas 或 scikit-learn，可以用于并行处理。你也可以将它用于不依赖现有库的通用算法。

参见

对于 Dask 的最佳实践，最好的起点是 Dask 文档本身，尤其是 docs.dask.org/en/latest/best-practices.xhtml。

使用 dask.distributed 调度任务

Dask 在执行方面非常灵活：我们可以在本地执行、在科学集群上执行，或者在云上执行。这种灵活性是有代价的：它需要被参数化。有多种配置 Dask 调度和执行的方式，但最通用的是 dask.distributed，因为它能够管理不同种类的基础设施。因为我不能假设你能够访问像 dask.distributed 这样存在于不同平台上的集群或云服务。

在这里，我们将再次计算 Anopheles 1000 基因组项目的不同变体的简单统计数据。

准备工作

在开始使用dask.distributed之前，我们需要注意，Dask 有一个默认的调度器，这个调度器实际上会根据你所使用的库而有所变化。例如，以下是我们 NumPy 示例的调度器：

import dask
from dask.base import get_scheduler
import dask.array as da
mosquito = da.from_zarr('data/AG1000G-AO/2L/calldata/GT')
print(get_scheduler(collections=[mosquito]).__module__)

输出将如下所示：

dask.threaded

Dask 在这里使用了一个线程调度器。对于 NumPy 数组来说，这样做是有道理的：NumPy 实现本身是多线程的（真正的多线程，带有并行性）。当底层库并行运行时，我们不希望有大量进程在后台运行。如果你使用的是 Pandas DataFrame，Dask 可能会选择一个多进程调度器。因为 Pandas 本身不支持并行，所以让 Dask 自己并行运行是有意义的。

好的——既然我们已经解决了这个重要细节，现在让我们回到环境准备工作。

dask.distributed 有一个集中式调度器和一组工作节点，我们需要启动它们。可以在命令行中运行以下代码来启动调度器：

dask-scheduler --port 8786 --dashboard-address 8787

我们可以在与调度器相同的机器上启动工作节点，方法如下：

dask-worker --nprocs 2 –nthreads 1 127.0.0.1:8786

我指定了每个进程使用一个线程。对于 NumPy 代码来说，这个配置是合理的，但实际配置将取决于你的工作负载（如果你在集群或云上，配置可能完全不同）。

小贴士

你实际上不需要像我这里所做的那样手动启动整个进程。dask.distributed 会为你启动一些东西——虽然它不会完全优化你的工作负载——如果你没有自己准备好系统（详情请见下一部分）。但我想给你一个概念，因为在很多情况下，你必须自己设置基础设施。

同样，我们将使用第一部分食谱中的数据。请确保按照准备工作部分的说明下载并准备好数据。我们不会使用重新分块的部分——我们将在下一部分的 Dask 代码中进行处理。我们的代码可以在Chapter11/Dask_distributed.py中找到。

如何做到这一点…

按照以下步骤开始：

让我们从连接到之前创建的调度器开始：

import numpy as np
import zarr
import dask.array as da
from dask.distributed import Client

client = Client('127.0.0.1:8786')
client

如果你使用的是 Jupyter，你将看到一个很好的输出，汇总了你在此食谱的准备工作部分所创建的配置：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_005.jpg

图 11.5 - 使用 dask.distributed 时的执行环境摘要

你会注意到这里提到了一个仪表板。dask.distributed 提供了一个实时仪表板，允许你跟踪计算的状态。你可以在浏览器中输入 http://127.0.0.1:8787/ 来访问它，或者直接点击 图 11.5 中提供的链接。

由于我们还没有进行任何计算，仪表板大部分是空的。一定要探索顶部的许多标签：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_006.jpg

图 11.6 - dask.distributed 仪表板的初始状态

让我们加载数据。更严格地说，让我们准备任务图以加载数据：
```
mosquito = da.from_zarr('data/AG1000G-AO/2L/calldata/GT')
mosquito
```

以下是在 Jupyter 上的输出：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_007.jpg

图 11.7 - 原始 Zarr 数组（2L 染色体）的汇总

为了方便可视化，让我们再次进行分块。我们还将为第二个维度——样本——创建一个单一的块。这是因为我们缺失值的计算需要所有样本，而在我们的特定情况下，为每个样本创建两个块是没有意义的：
```
mosquito = mosquito.rechunk((mosquito.shape[0]//8, 81, 2))
```

提醒一下，我们有非常大的块，你可能会遇到内存问题。如果是这样，你可以使用原始的块进行运行。只是可视化效果将无法读取。

在继续之前，让我们要求 Dask 不仅执行重新分块操作，还要确保结果已经准备好并存储在工作节点中：
```
mosquito = mosquito.persist()
```

persist 调用确保数据在工作节点中可用。在以下截图中，你可以看到计算过程中的仪表板。你可以查看每个节点上正在执行的任务、已完成和待完成的任务摘要，以及每个工作节点上存储的字节数。需要注意的是 溢写到磁盘 的概念（见屏幕左上角）。如果内存不足以容纳所有块，它们会暂时写入磁盘：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_008.jpg

图 11.8 - 执行持久化函数以重新分块数组时的仪表板状态

现在，让我们计算统计信息。对于最后一个配方，我们将使用不同的方法——我们将请求 Dask 对每个块应用一个函数：

def calc_stats(my_chunk):
    num_miss = np.sum(
        np.equal(my_chunk[0][0][:,:,0], -1),
        axis=1)
    return num_miss
stats = da.blockwise(
    calc_stats, 'i', mosquito, 'ijk',
    dtype=np.uint8)
stats.visualize()

请记住，每个块不是 dask.array 实例，而是一个 NumPy 数组，因此代码是在 NumPy 数组上运行的。以下是当前的任务图。没有加载数据的操作，因为之前执行的函数已经完成了所有这些操作：

https://github.com/OpenDocCN/freelearn-ds-pt3-zh/raw/master/docs/bioinfo-py-cb/img/B17942_11_009.jpg

图 11.9 - 从持久化数据开始的每个块对 calc_stats 函数的调用

最后，我们可以得到我们的结果：
```
stat_results = stats.compute()
```

还有更多…

关于 dask.distributed 接口，还有很多内容可以进一步讲解。在这里，我们介绍了其架构的基本概念和仪表盘。

dask.distributed 提供了基于 Python 标准 async 模块的异步接口。由于本章内容的介绍性性质，我们不会详细讨论它，但建议你查看相关内容。

另见

你可以从 dask.distributed 的文档开始，访问 distributed.dask.org/en/stable/。
在许多情况下，你需要将代码部署到集群或云端。请查看部署文档，了解不同平台的资源：docs.dask.org/en/latest/deploying.xhtml。
在掌握本章内容后，下一步可以学习 Python 中的异步计算。请查看 docs.python.org/3/library/asyncio-task.xhtml。

你可能感兴趣的:(默认分类,默认分类)

wordpress怎么去除category标签秋水丶秋水 android
WordPress去掉category四个方法使用WordPress的朋友都知道，在默认分类url中会加入category目录，虽然从网站优化方面考虑影响不大，但是多了一层路径，怎么看都很繁琐。对于去掉category的方法，网上有很多种技巧，那么今天就把WordPress去掉链接中的category四个方法列举一下，分析利弊，以供各位参考使用。一、修改固定链接设置登录Wordpress后台，打开
思（原）随风听雪
2010-08-0400:16:25|分类：默认分类|举报|字号订阅下载LOFTER我的照片书|思（原）-盛夏-仲夏夜的梦千遍的思念无怨无悔如严冬不厌春天晚风吹拂的浪漫里多了一份对你的挂牵醉人的夏夜里隐隐一丝身边无你的怅然离别是在那淫雨的夏日只愿时光能回到相聚的三月天喜悦停在了阳春的霞光里美丽如风筝在飘飞到最高处断线无奈在飞沙中眷顾卷走的也许是经典你的回眸流露出无声的千言齿间是最真的誓愿耳畔的细语
缠绵细雨随风听雪
2014-10-1300:34:43|分类：默认分类|举报|字号订阅下载LOFTER我的照片书|2014年10月13日-盛夏-仲夏夜的梦缠绵的秋雨打湿了黄叶，静静的飘零。不止一次驻足在这紧闭的门前，看新芽，看枝繁，再到看叶落。从欣喜，到渴望，再到快乐被带走。悄然远去，渺无音讯。任思绪肆意的翻卷，任记忆在深巷里徘徊，再无意将它们拢起。冰冷的石阶上有过散落的阳光，仅有的柔和带着碎过的温暖。身后轻轻的脚
（原）叶子 2 随风听雪
2014-12-1522:35:43|分类：默认分类|举报|字号订阅下载LOFTER我的照片书|（原）叶子2-盛夏-踮起脚，离阳光近一些评论这张阅读(84)|评论(16)喜欢推荐转载（原）叶子1（原）叶子3在LOFTER的更多文章关闭玩LOFTER，免费冲印20张照片，人人有奖！我要抢>评论（原）叶子2-随风-随风随风（原）叶子2-随风-随风2015-01-0921:39李佼娉神笔文采。回复（原）
Linux 下的日志服务器操作 dawnmissing
Linux下的日志服务器操作1.系统日志默认分类：/var/log/messages系统服务及日志，包括服务的信息，报错等等/var/log/secure系统认证信息日志/var/log/maillog系统邮件服务信息/var/log/cron系统定时任务信息/var/log/boot.log系统启动信息日志设备(可以理解为日志类型)：authpam产生的日志authprivssh,ftp等登录信
茶香四溢的爱（原）随风听雪
茶香四溢的爱（原）2009-04-0801:32:26|分类：默认分类|举报|字号订阅下载LOFTER我的照片书|爱就是半杯浓茶，乐观的人说它一半是满的，悲观的人说它一半是空的。它色泽浓烈诱人，初尝它会觉得苦涩，细品才觉出浓香。对于口干舌燥的人它只能节干渴，对于钟爱它的人它回味无穷。茶对于人们司空见惯，平淡无奇，然而它蕴含着无穷的文化和内涵，才使它千百年来渊远流传。今天的人们不愿品茶，却说茶的形象
留住温暖随风听雪
2014-11-0623:53:52|分类：默认分类|举报|字号订阅下载LOFTER我的照片书|留住温暖-盛夏-仲夏夜的梦天高难测云薄如纱直燕向南不顾回头枫不爱春真情怜秋前暑尽消碎雨夹寒残叶知秋倾尽所有离枝回首往事飘散心恋难留空天静寂西风云舒分开的手留下的暖清冷的秋无形远去雪雨的路冷暖自知迷雾阴晴是非浊请都成惦念晚菊绽放一炽如春独留秋里接续情缘慢描园舍韵醉农庄不求佳辞只为留住这个轮回最后的-温暖-
这叫节日随风听雪
2014-09-2001:19:51|分类：默认分类|举报|字号订阅下载LOFTER我的照片书|这叫节日-盛夏-仲夏夜的梦假日办的取消，听我朋友的舅妈一位老妇女主任说，是由于女性对节日的抵触。为什么抵触，人家还说了一大堆理由，都不用多想，有道理，就说这节日。首先是情人节，烂漫过后女孩儿変妇女了，紧跟着是妇女节呀。接下来有人发现，婚后的男人头发越来越少，毛病越来越多，跟以前不一样，上当了，对了，愚人
凭着熟悉的曲调 ······ 小毛sunan293
2013-03-1013:48:44|分类：默认分类|字号订阅“无论你走到哪里，都可以凭着《国际歌》熟悉的曲调，给自己找到同志和朋友。”——记得是列宁说过的。小时候还当了真，幻想着出走到一个陌生城市，只要听到或唱起它就能够得到朋友的帮助。不久前的一天，我沿着后半山园出城墙门来到琵琶湖畔，绕行一圈后在路边长椅上小憩，享受着午后初春的暖阳。山坡上飘来一阵雄壮激昂的军乐声，熟悉的曲调立刻吸引了我，一下就
时间管理进阶课04笔记王锡华
日历随堂练习：1.搞定工具；2.分类清晰；3.设定日历默认分类；4.先大后小，先安排重要事情；5.严谨少量；6.分类清晰；7.记录详尽8.避免重复；9.查看更新10.局部原则。
叶子 2 随风听雪
2015-02-2217:41:31|分类：默认分类|举报|字号订阅下载LOFTER我的照片书|辞去了那份工作心里还是有些舍不得，毕竟工作了近两年了。待遇还算是好的，熟练了也不太觉得累了。只是觉得在那里自己以前的上学跟上鞋没什么区别，大多都没用上，都是从零开始。两年的时间里还是学到了不少东西，这也成了自己的自信和勇气。想着自己独立干些事了，做自己喜欢的，就算做不好也给自己一个失败的机会，要想爬起来
出新之后小毛sunan293
2014-08-1711:45:51|分类：默认分类|字号订阅续上篇18号平房门诊部35号平房西门在马标35号平房东山墙上，找到了前几天不幸离世的军院T学长儿时的涂鸦···阅读(137)|评论(7)||删除|推送|置顶霄楠2015-06-0208:56田朝平，比我们大，我加入过他的“平房中队”，一帮小孩2路纵队齐步向前，横跨木枪，齐声高喊：“田兵操，田兵操，田-兵-操！”到今天都不知道那个念第4声
搬家 007 icyfire
欧游杂记作者：icyfires2006-10-1106:33分类：默认分类标签：丙戌七月闰余以访学故来游欧陆旋踵逾月矣自来进退作息恒无常节时感苶靡其间复闻先外祖母弃世垂泪有日剺面摧心惝怳迷离悲怅者久之今反顾思之恍若一梦前日中秋今夕寒露日月忽忽时节迁流余镇日枯坐研习夷语时有倦意而月来见闻得失有以记者众今夕月明欲覼缕一过聊以遣夜第余乏文恐述之谬悠但略记所思所睹而已其一：德人秉性素闻德人为事求速达极效率
WordPress主题开发（四）之—— 主题结构基础补存 longm龙哥 wordpress建站 php
WordPress主题开发（五）之——主题结构基础拆解主题组成部分1.模板文件和文章类型2.文件结构3.语言国际化模板循环和数据提取主题功能和条件函数默认分类和自定义分类法总结在之前的章节中，我们已经简要介绍了WordPress主题的基本概念以及如何开始开发主题。在本章中，我们将深入学习如何正确地开发WordPress主题，重点关注主题的各个组成部分和关键概念。拆解主题组成部分一个WordPres
视频压缩技术的系统及TI DSP方案 myself659 DSP h.264 工具算法 video 存储优化
视频压缩技术的系统及TIDSP方案默认分类2009-11-0617:04:27阅读35评论0字号：大中小订阅1.前言数字视频产品需求近些年出现猛增。主流应用包括视频通信、安全监控与工业自动化，而最热门的要算娱乐应用，如DVD、HDTV、卫星电视、高清(HD)机顶盒、因特网视频流、数码相机与HD摄像机、视频光盘库(videojukebox)、高端显示器（LCD、等离子显示器、DLP）以及个人摄像机等
搬家 020 icyfire
惑与不惑作者：icyfires2014-11-0916:38分类：默认分类标签：生活文学社会箑藏节气露凝季候年齿期以不惑所惑何出数罟我生娑婆有情难脱帝网一入情缰遂缚然父母劬劳之日隋文诏令以断屠里人复贺以羊酒职是之故遵礼从俗诚宜乎有以记之惟余侨异邦庸碌不名事皆无足记之也有之则唯向之冥想所得一秘境差可笔之因断言心事倾所惶惑概言余所默想玄思者则时间者何所谓也势者命运者何所归也二而一一而二遂起而操管录余所
搬家 017 icyfire
又过生日怕过生日作者：icyfires2010-11-0115:38分类：默认分类标签：泰西文明繇起希腊自泰勒斯氏以还哲圣夥颐贤者众矣窃惟其大者莫先于巴门尼德氏莫後于海德格尔氏予虽不敏亦尝泛览群籍于欧陆诸子予独服康德氏而诵其书甚习其三批判书也精义彪炳幽赞彝宪诚非吾侪学人所得望其肩项也予于是书初窥西学道统然于幻真之所依倚觉相之所起断尤未克获解至于道器幽明冯翼惟像阴阳叁合天问诸惑氏著三书亦莫尽抽绪虽然
C#ComboBox控件“设置 DataSource 两种方法 wushijun5200 net servlet java 数据库
string[]BWnames=newstring[]{"大大","三三","王王","七七","其它"};Listgcbws=newList();for(inti=0;i0){this.cobx_month.SelectedValue=currentmonth;//默认分类}===========================方法二//首先声明表格DataTabledataTable=newD
2018-10-18 月度日程表十项要点 bridge8031
1、搞定工具尽量不使用纸质日历，使用电子日历2、分类清晰建立日历分类设定颜色，从三个分类个人、工作、家庭建起，某类事务多了可以再细分。3、在手机系统设置中设定日历默认分类一般是个人分类，设置日历的页面从周一到周日显示，最好日历的app放在最醒目的手机首页，保留日历的弹屏通知。4、先大后小，先安排重要的大事，体现为跨天事件。请现在在一年的视角里，放入假期、旅行，孩子寒暑假、学校活动等对家人重要的日子
别 · 忆小毛sunan293
2015-09-2414:12:22|分类：默认分类|字号订阅记得熟悉的地方离别场景的凄凉失去童伴的感伤独自徘徊的迷茫一切都已过去成为我们的记忆梦里时时想起总也挥之不去每个发小的记忆都是一块拼图，合在一起就是我们的童年······阅读(126)|评论(5)||删除|推送|置顶
嗨，请多关照 Piglet08
，飘飘摇摇中找到你我是二十六岁还不到的Bo，感谢你这一方天地老朋友们都被停服了，从51到网易博客到这里，今日先说一声晚安===============================================BEAUTYANDTHEBEAST2017-08-1600:03:27|分类：默认分类这是一朵花的花语。若是对照上一篇的日期，这留白的一年过得潇洒又悠闲。暑假拿到returnoffer后
金陵——览胜小毛sunan293
2015-07-2511:14:07|分类：默认分类|字号订阅图片撷自网上阅读(55)|评论(1)||删除|推送|置顶
搬家 024 icyfire
岁其暮兮繁怀盈臆作者：icyfires2018-11-0219:25分类：默认分类标签：生活文学社会霜林残日葭苍露凝去岁兴叹之声犹旋圜耳内今夜门左忽再垂弧矣于是酌秋醴以代春酒称兕觥用介眉寿而故土已遥桃源未近年驹催迫磨尽壮心柳河东有句云世纷因事远心赏随年薄其中萧疏况味经岁乃知真秋士之悲也余流居海外迁客生涯春风虽好非是故国近岁已来季暑初入则跋涉归省椿萱衰迈暮云归岫长辈零落心实恸恻特于今夏为尤烈嗟我元舅
O2O 小毛sunan293
2016-05-2000:08:14|分类：默认分类|字号订阅互联网技术日新月异，落伍许久最终还是开了微信，被同学戏称归队。加好友、看视频、转段子、刷朋友圈、点赞评论，整日online浸淫在信息潮中抬不起头来。直到电池亮起红灯，才不得不offline去散步，放松一下颈肩揉揉胀痛的眼睛。大礼堂和一字楼之间面积有四个足球场大，环路上是跑步和健行的年轻人，我在里圈绿道不紧不慢的踱着，中心是毛像脚下伴随着
svn服务器+Intellij IDEA 青苔猿猿
svn服务器+IntellijIDEA2012-01-1111:42:07|分类：默认分类|字号订阅服务器：svn1.6.5安装版客户端：tortoiseSVN1.6.5开发工具：IntelllijIDEA8.1-----------------------------------------------------------------------1：安装svn服务器【版1.6.5】2：创建仓
2018-11-01 阑友
夜，真是难熬，忽然而已（旧作）已有874次阅读2008-7-2312:54|个人分类:默认分类同事们都出去干活去了，工地上的帐篷里只剩下了他一个人，帐篷里靠门帘的地方挂着一盏白炽灯泡，发出了有些昏黄的光，大约不足40w的亮度；由于无聊，他就在帐篷里的木制的床板上躺了下来，他因为发低烧刚服过药，想小睡一会儿；木板上铺了一层娃哈哈矿泉水拆开的箱纸，大约有十几分钟的样子，就感觉到周身的骨头被木板硌的生疼
最适合懒人用的时间管理工具苍浪
这是一款在Mac上使用的时间管理工具：Timing！之前我一直用的是RescueTime，用了好几年，它也可以记录时间，但是有些小问题（比如不能删除默认分类、不能新增分类）是硬伤，另外对中文支持不好而且页面不好看（因人而异）也是我一直诟病的，所以当看到Timing之后感觉如沐春风，整个人都活了起来。这个就是我之前用的RescueTime以下是推荐理由：1、强大规则管理器2、超级自动化3、分类灵活4
cgroup配合tc工具对进程的上下行（出口入口）速度进行限制，附测试脚本 liyuanchao_blog Linux 网络服务器
在开始之前，如果不熟悉cgroup、tc、以及ifb虚拟网卡，建议先了解一下再进行试验注：为什么会用到ifb虚拟网卡呢，因为Linux自带的tc是一套控发不控收的框架。具体ifb详细原理，自行研究，网上资料多的很。对出口流量限制的预配置//默认分类为100tcqdiscadddevens32roothandle1:htbdefault100//指定classid为1:1的出口流量为50mbit，这
【转载】快照原理-差分快照（COW&ROW）阿凡提的哥分布式存储
作者:陈日志时间:2018-12-17分类:默认分类访问:305次之前在介绍Linux文件系统的文章中，有提过ZFS、Btrfs文件系统中，有内置快照的功能，也有提到过其快照的由CoW机制实现的。那么这篇文章将带领大家了解快照的原理。快照技术分类常见快照的类别有两类：全拷贝快照差分快照全拷贝快照拷贝快照是通过镜像技术来实现的，即其同时会写两个磁盘，我们可以理解为磁盘整列技术中的RAID1。下面通过
企业邮箱如何设置邮件模板 wwwwestcn 企业邮箱邮箱模版邮箱
有时候我们需要给不同的人发送相同的内容，但是内容又不完全相同，这个时候可以使用邮件模板功能。1、登录到企业邮箱，点击写邮件2、填写主题和邮件内容，然后点击“存模板”。3、选择个人或公共模板添加，可以自定义分类或选择默认分类。注意：不同的账户权限添加模板有不同的区别。postmaster账户：只能添加公共模板管理员/分级管理员：可以添加个人模板或公共模板普通成员：只能添加个人模板
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla