Leon1895

RandomForest详解（附带详细公式推导）

RandomForest详解

第三次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。这一篇的内容来自于各种书籍，以及自己的一些见解。

预备知识：

这一部分主要是谈一谈bootstrap sampling（自助采样法）、Bagging，以及out-of-bag estimate（包外估计）中涉及到的基础数学公式和定理的推导。

bootstrap sampling（自助采样法）

在训练学习器时，我们希望学习器不仅能很好地拟合训练样本，还可以有较低的泛化误差，因此一般采用留出法和交叉验证法，但是这些方法会受到数据规模的影响，尤其是在原始数据很少的情况下，而留一法又会带来将巨大的计算量。因此可以采用自助采样法（bootstrap sampling）。
假设当前有一个含有m个样本的数据集D，我们对其进行m次“有放回的”随机采样，这样得到了大小为m的新数据集D’。可以肯定的是，新数据集必定含有原始数据集中某个样本的重复采样，可以进行下面的估计。
每一轮采样中，样本x被抽到的概率为1/m，因此，在m轮抽样后，该样本仍未被抽取到的概率为：

因此，原始数据集中有大约36.8%的样本没有被抽到，这些样本就可以用于由新数据集D’训练得到的学习器的“包外估计”【3】。
当数据集很小，以至于训练\测试集不能很好地分开时，这种方法比较适用，也为集成学习提供了很多帮助。但是，由于得到的新数据集或多或少的改变了原始数据集的样本分布，自助采样法可能会引入一些误差，因此，当原始数据集足够大时，尽量选用留出法和交叉验证法。

Bagging

在集成学习中，基学习器的“好坏”非常关键，我们希望基学习器们拥有很强大的性能，同时又希望基学习器之间有一定的差异。如果所有基学习器仅通过同一个训练集进行训练，必定不会产生差异。这时就需要通过原始数据集生成多个不同的样本分布的新训练集，我们可以采用自助采样法（bootstrap sampling）来达到这个目的。
Bagging就是通过在每轮迭代中，首先通过自助采样法生成不同的训练集，之后基于这个“新”训练集对基学习器进行训练。最后，集成学习器的预测结果将由T轮迭代后生成的T个基学习器，进行简单的投票法（其他的结合策略见Ensemble Strategy一文）来决定。
Bagging伪代码如下：

与标准Adaboost只能用于二分类任务不同的是，Bagging可以不经修改的用于多分类、回归等任务。

out-of-bag estimate（包外估计）

由于自助采样法产生的新数据集包含大约63.2%的原始样本，因此每轮迭代中，可以使用剩下的36.8%的原始样本对产生的基学习器进行泛化误差的“包外估计”（out-of-bag estimate），减小过拟合的风险，当基学习器是决策树或神经网络时尤其重要。
还可以利用这些未被选做训练样本的原始样本，对集成学习器的泛化误差进行包外估计。假设，Bagging算法产生了T个基学习器 $h_t$ ，其中每个基学习器是由数据集 $D_t$ 训练得到的， $H^{oob}\left(x\right)$ 是对样本x的包外预测，即仅考虑那些没有使用x的基学习器在x上的预测，可得

则Bagging的泛化误差的包外估计为

其中 $∣ D ∣$ 为原始数据集D的大小，Y为y的值域。

推导过程:

主要分为三部分：标准的随机森林、比较多变量CART树、Bagging、以多变量CART树作为基学习器的随机森林和随机森林的一些要点。

标准的随机森林

标准随机森林（RF）是以决策树作为基学习器的，一种基于Bagging的拓展算法，在每一轮决策树训练过程中加入了随机属性选择。具体来说，在训练决策树时，是从当前结点的全部属性集合中选择最优的划分属性，而在RF中，对于决策树的每个结点，显示从当前节点的全部属性集合中随机选择一个包含k个属性的子集，之后再从这个子集中选择一个最优的划分属性。毋庸置疑，参数k控制了随机性的引入程度，k越大基学习器的性能越好，但是基学习器之间的独立性会大打折扣；k越小基学习器之间的相关性会降低，但是基学习器的性能也会下降。因此，在很多文献中，这样选择k

作为标准随机森林（RF）的两种形式之一，上述算法也被称为Forest-RI，其中RI指的是Random Input（随机输入选择），这种方法适用于原始候选属性集大小d足够大，且该算法由于大大减少了在每个结点进行划分属性的候选属性数量，因此运行时间大大减少。
但是当d不足够大时，我们就要考虑标准随机森林的另一种形式，即Forest-RC，其中RC指的是Random Combin（随机组合），这种方法通过在每个结点创建候选属性的线性组合，以增加供每个结点进行划分特征选择的候选属性集大小。具体的方法是：从决策树的每个结点的原始候选属性集合中，随机选择L个属性（L < k），之后将这些属性用区间[-1,1]的均匀分布产生的系数进行线性组合，来生成大小为k的候选属性集合，最后从这个集合中选择最优划分属性（线性组合），这样，每个基学习器与多变量决策树类似。

比较多变量CART树、Bagging、以多变量CART树作为基学习器的随机森林

比较多变量CART树、Bagging、以多变量CART树作为基学习器的随机森林（下图从左至右，其中Bagging中每轮训练样本数为原始数据集的一半）

由上面的几幅图可知，随机森林比其他两种算法产生的分类边界更加smooth，并且有类似于最大间隔分类器的分类边界。
在数据集比较复杂时，我们来对Bagging、以多变量CART树作为基学习器的随机森林（下图从左至右，其中Bagging中每轮训练样本数为原始数据集的一半）进行比较。

由上面几幅图可以看出，随机森林比Bagging更加具有鲁棒性。
当数据中再加入一些噪声后，可以得到下面几幅图。

可以看出，随机森林生成的决策边界中，正例中包含一部分被错误标记为负例的噪声样本，因此随机森林还有通过投票修正噪声的优点。

随机森林的一些要点

Bagging的特点
Bagging主要关注降低方差，因此当基学习器为决策树和神经网络等易受样本扰动的学习器时，Bagging的效果更好，因为这些学习器普遍具有较高的方差。当然也可以在生成基学习器的过程中，使用包外样本提高基学习器的泛化能力。
随机森林的多样性
随机森林的多样性不仅来自于样本扰动，还来自于属性扰动，这就使得最终的集成学习器的泛化性能可通过基学习器之间独立性的增加而提升。
随机森林的特点
随机森林的起始性能往往比较差，特别是只有一个基学习器时，这是因为基学习器的训练过程中加入了属性扰动，导致基学习器的性能降低。但是，随着基学习器的个数增加，随机森林产生的集成学习器的性能会得到很大的提升，即最终泛化误差会收敛到最小。
随机森林的泛化误差
理论证明，当树的数目足够大时，随机森林的泛化误差的上界收敛于下面的表达式

其中 $\bar{\rho}$ 是树之间的平均相关系数，s是度量树型分类器的“强度”的量。一组分类器的强度是指分类器的平均性能，而性能以分类器的余量（M）用概率算法度量：

其中 $\hat{Y_{\theta}}$ 是根据模随机向量 $\theta$ 构建的分类器对X做出的预测类。余量越大，分类器正确预测给定的样本X的可能性就越大。由泛化误差上界的定义公式可知，随着树的相关性增加或组合分类器的强度降低，泛化误差的上界趋于增加。因此，随机化有助于减少决策树之间的相关性，从而改善组合分类器的泛化误差。

参考资料

【1】《机器学习》
【2】《机器学习实战》
【3】《数据挖掘》
【4】《机器学习技法》

代码实现及对比

下面是我自己实现的代码，这段代码主要实现了Bagging和RandomForest两种集成学习方法，采用CART作为基学习器，由于IRIS数据集作为训练集，因此在之前的CART代码上进行了修改，具体的可以看下面的代码细节，下面对这两个算法的结果进行简要分析。

代码细节

"""

@author: Ἥλιος
@CSDN：https://blog.csdn.net/qq_40793975/article/details/80988486

"""


import numpy as np
import random
import time


# 加载IRIS数据集
def load_IRISdata(filename):
    labelMap = {"Iris-setosa": 1, "Iris-versicolor": 2, "Iris-virginica": 3}    # 标记映射
    with open(filename) as fr:
        dataMat = []
        labelMat = []
        for data in fr.readlines():
            data = [i for i in data.strip().split(",")]
            dataMat.append([float(i) for i in data[:-1]])
            labelMat.append(data[-1])
    dataMat = np.mat(dataMat)
    for i in range(np.size(dataMat, axis=0)):
        labelMat[i] = labelMap[labelMat[i]]
    labelMat = np.mat(labelMat).T
    return dataMat, labelMat


allDataMat, allLabelMat = load_IRISdata("C:\\Users\\Administrator\\Desktop\\iris.data")


# 划分数据集为训练集和测试集（trainRate是训练集占比）（可选）
def split_Dataset(dataMat, labelMat, trainRate=0.6):
    m = np.size(dataMat, axis=0)
    allIndex = [i for i in range(m)]    # 创建整个数据集的索引
    trainIndex = []  # 训练集索引
    labelSet = set(labelMat.T.tolist()[0])  # 获取标记列表
    for label in labelSet:  # 对于标记列表中的每个标记，分别进行比例为trainRate的随机采样
        labelIndex = np.nonzero(labelMat == label)[0]
        indexList = [i for i in range(np.size(labelIndex))]
        indexes = random.sample(indexList, int(trainRate*np.size(labelIndex)))
        trainIndex = trainIndex + labelIndex[indexes].tolist()
    testIndex = list(set(allIndex).difference(set(trainIndex)))  # 得到测试集索引
    trainDataMat = dataMat[trainIndex, :]
    trainLabelMat = labelMat[trainIndex, :]
    testDataMat = dataMat[testIndex, :]
    testLabelMat = labelMat[testIndex, :]
    return trainDataMat, trainLabelMat, testDataMat, testLabelMat


# trainDataMat, trainLabelMat, testDataMat, testLabelMat = split_Dataset(allDataMat, allLabelMat)


# bootstrap
def bootstrap_Sample(dataMat, labelMat):
    m = np.size(dataMat, axis=0)
    allSet = [i for i in range(m)]
    dataIndex = np.random.randint(0, m, m, dtype=np.int)
    sampleDataMat = dataMat[dataIndex, :]
    sampleLabelMat = labelMat[dataIndex, :]
    sampledSet = set(dataIndex)
    restSet = list(set(allSet).difference(sampledSet))
    print("Sample Rate:", 100 * len(sampledSet)/m)
    return sampleDataMat, sampleLabelMat, restSet


# sampleDataMat, sampleLabelMat, restSampleIndex = bootstrap_Sample(allDataMat, allLabelMat)
# dataMat = np.hstack((sampleDataMat, sampleLabelMat))


# 划分数据集(CART)
def split_dataSet(dataMat, featIndex, featValue):
    ret_dataMat_g = dataMat[np.nonzero(dataMat[:, featIndex] > featValue)[0], :]
    ret_dataMat_l = dataMat[np.nonzero(dataMat[:, featIndex] <= featValue)[0], :]
    return ret_dataMat_g, ret_dataMat_l


# 回归树叶节点标记划分
def reg_leaf(dataMat):
    labelList = dataMat[:, -1].T.tolist()[0]
    labelSet = set(labelList)
    labelDict = {}
    for label in labelSet:
        labelDict.update({label: labelList.count(label)})
    return max(labelDict, key=labelDict.get)


# 回归树结点纯度评价（加权回归误差）
def reg_error(dataMat):
    return np.var(dataMat[:, -1])*np.shape(dataMat)[0]


# 选择最优划分属性和划分值
# 输入：
#       dataMat:数据集，包括每个样本的特征向量与标记
#       toln:一个节点最少含有的样本数
#       sampleFeatNum:在Bagging中没用到
# 输出：
#       best_featIndex:最佳划分属性的索引
#       best_featValue:最佳划分值
def choose_best_split(dataMat, toln, sampleFeatNum=3):
    best_featIndex = -1
    best_featValue = 0.0
    best_S = np.inf
    for featIndex in range(np.shape(dataMat)[1] - 1):
        for featValue in set(dataMat[:, featIndex].T.tolist()[0]):
            ret_dataMat_g, ret_dataMat_l = split_dataSet(dataMat, featIndex, featValue)
            if np.shape(ret_dataMat_g)[0] < toln or\
                    np.shape(ret_dataMat_l)[0] < toln:  # 如果划分后的两个子结点其中有一
                                                        # 个不满足最低的样本数限制，就直接计算当前结点的总误差
                current_S = reg_error(dataMat)
            else:
                current_S = reg_error(ret_dataMat_l) + reg_error(ret_dataMat_g)
            if current_S < best_S:
                best_S = current_S
                best_featIndex = featIndex
                best_featValue = featValue
    return best_featIndex, best_featValue


# 创建树（tols和toln越小树的规模越大）
# 输入：
#       tols:结点划分前后误差之差的阈值
#       toln:一个节点最少含有的样本数
# 输出：
#       retTree:在创建过程中，该参数是作为输入参数进行递归的，即左子树或右子树；最终输出时，作为整个过程的输出，即整个树
def createTree(dataMat, tols=1.0, toln=2, choose_best_split_method=choose_best_split, sampleFeatNum=3):
    if len(set(dataMat[:, -1].T.tolist()[0])) == 1:     # 如果该结点下的样本全部属于一个标记，
                                                        # 直接将该节点作为子结点
        return dataMat[0, -1]
    allfeat_same = 1
    for featIndex in range(np.shape(dataMat)[1]-1):
        if len(set(dataMat[:, featIndex].T.tolist()[0])) != 1:
            allfeat_same = 0
    if allfeat_same == 1:  # 该结点下所有样本点的特征值是否相同，如果相同就将该结点作为子结点
        return reg_leaf(dataMat)
    best_featIndex, best_featValue = choose_best_split_method(dataMat, toln, sampleFeatNum)
    ret_dataMat_g, ret_dataMat_l = split_dataSet(dataMat, best_featIndex, best_featValue)
    if np.shape(ret_dataMat_l)[0] < toln or\
            np.shape(ret_dataMat_g)[0] < toln:  # 如果划分后的两个子结点其中有一
                                                # 个不满足最低的样本数限制，就直接将当前结点作为叶结点
        return reg_leaf(dataMat)
    current_S = reg_error(ret_dataMat_g) + reg_error(ret_dataMat_l)
    S = reg_error(dataMat)
    if (S - current_S) < tols:  # 如果划分后的总误差相比划分之前的总误差减少量低于tols，就将当前结点作为叶结点
        return reg_leaf(dataMat)
    retTree = {"featIndex": best_featIndex, "featValue": best_featValue,
               "left": createTree(ret_dataMat_g, tols, toln, choose_best_split_method, sampleFeatNum),
               "right": createTree(ret_dataMat_l, tols, toln, choose_best_split_method, sampleFeatNum)}
    return retTree


# 对新样本点进行估计
def estimate_newSample(tree, data):
    # if type(tree).__name__ != 'dict':
    #     return tree
    if data[0, tree['featIndex']] > tree['featValue']:
        if type(tree['left']).__name__ == 'dict':
            return estimate_newSample(tree['left'], data)
        else:
            return tree['left']
    else:
        if type(tree['right']).__name__ == 'dict':
            return estimate_newSample(tree['right'], data)
        else:
            return tree['right']


# 对新样本集进行估计
def estimate_newMat(tree, newDataMat):
    m = np.shape(newDataMat)[0]
    Y_hat = np.mat(np.zeros((m, 1)))
    for i in range(m):
        Y_hat[i, 0] = estimate_newSample(tree, newDataMat[i, :])
    return Y_hat


# myTree = createTree(dataMat)
# Y_hat = estimate_newMat(myTree, dataMat)
# print("Training Set Accuracy: ", np.sum(Y_hat == dataMat[:, -1]) / np.shape(dataMat)[0])
# newDataMat = np.hstack((allDataMat[restSampleIndex, :], allLabelMat[restSampleIndex, :]))
# Y_hat = estimate_newMat(myTree, newDataMat)
# print("Testing Set Accuracy: ", np.sum(Y_hat == newDataMat[:, -1]) / np.shape(newDataMat)[0])


# Bagging
# 输入：
#       allDataMat:全部样本的全部特征向量构成的矩阵，即X
#       allLabelMat:全部样本的标记构成的向量，即Y
#       T:基学习器数量
# 输出：
#       treeList：所有基学习器构成的列表，即Tree1、Tree2、...、TreeT
#       generalizationErr:泛化误差（采用包外估计OOB）
def bagging(allDataMat, allLabelMat, T=200):
    m = np.size(allDataMat, axis=0)
    treeList = []
    estimateLabelMat = np.mat(np.zeros((m, T)))    # 构造矩阵，保存每个基学习器的包外估计
    averageTestingAcc = 0.0     # 基学习器的测试误差均值
    averageTranningAcc = 0.0    # 基学习器的训练误差均值
    for i in range(T):
        sampleDataMat, sampleLabelMat, restSampleIndex = bootstrap_Sample(allDataMat, allLabelMat)
        dataMat = np.hstack((sampleDataMat, sampleLabelMat))
        myTree = createTree(dataMat, choose_best_split_method=choose_best_split)
        Y_hat = estimate_newMat(myTree, dataMat)
        trainingAcc = np.sum(Y_hat == dataMat[:, -1]) / np.shape(dataMat)[0]
        print("The ", i+1, " Base Learner's Training Set Accuracy: ", trainingAcc)
        while trainingAcc <= 0.5:   # 确保每个基学习器满足条件
            print("This Base Learner dissatisfy Base Learner's Request(trainingAcc > 0.5)!")
            sampleLabelMat, sampleDataMat, restSampleIndex = bootstrap_Sample(allDataMat, allLabelMat)
            dataMat = np.hstack((sampleDataMat, sampleLabelMat))
            myTree = createTree(dataMat, choose_best_split_method=choose_best_split)
            Y_hat = estimate_newMat(myTree, dataMat)
            trainingAcc = np.sum(Y_hat == dataMat[:, -1]) / np.shape(dataMat)[0]
            print("The ", i+1, " Base Learner's Training Set Accuracy: ", trainingAcc)
        newDataMat = np.hstack((allDataMat[restSampleIndex, :], allLabelMat[restSampleIndex, :]))   # 未被选中的原始样本
        Y_hat = estimate_newMat(myTree, newDataMat)
        testingAcc = np.sum(Y_hat == newDataMat[:, -1]) / np.shape(newDataMat)[0]
        print("The ", i+1, " Base Learner's Testing Set Accuracy: ", testingAcc)
        averageTestingAcc += testingAcc / T
        averageTranningAcc += trainingAcc / T
        Y_hattmp = np.zeros((m, 1))
        Y_hattmp[restSampleIndex, ] = Y_hat
        estimateLabelMat[:, i] = np.mat(Y_hattmp)
        treeList.append(myTree)
    labelNum = len(set(allLabelMat.T.tolist()[0]))
    statisticsMat = np.mat(np.zeros((m,labelNum)))
    for i in range(labelNum):
        statisticsMat[:, i] = np.sum(estimateLabelMat == i+1, axis=1)
    estimateLabel = np.argmax(statisticsMat, axis=1) + 1   # 采用投票法（非加权）进行包外估计
    generalizationErr = 1 - np.sum(estimateLabel == allLabelMat)/m  # 计算泛化误差
    print("--------------------------------------------------------------------")
    print("Base Learners' Average Testing Error: ", 1-averageTestingAcc)
    print("Base Learners' Average Tranning Error: ", 1-averageTranningAcc)
    print("Bagging's Generalization Error: ", generalizationErr)
    return treeList


startT = time.time()
treeList = bagging(allDataMat, allLabelMat)
stopT = time.time()
print(treeList)
print(stopT - startT)


# 选择最优划分属性和划分值（RandomForest要求在选择每个结点最优划分属性时，只考虑随机抽取到的属性）
# 输入：
#       dataMat:数据集，包括每个样本的特征向量与标记
#       toln:一个节点最少含有的样本数
#       sampleFeatNum:属性子集大小k=log2(d)+1
# 输出：
#       best_featIndex:最佳划分属性的索引
#       best_featValue:最佳划分值
def choose_best_split_RF(dataMat, toln, sampleFeatNum=3):
    best_featIndex = -1
    best_featValue = 0.0
    best_S = np.inf
    allIndex = [i for i in range(np.shape(dataMat)[1] - 1)]
    for featIndex in random.sample(allIndex, sampleFeatNum):
        for featValue in set(dataMat[:, featIndex].T.tolist()[0]):
            ret_dataMat_g, ret_dataMat_l = split_dataSet(dataMat, featIndex, featValue)
            if np.shape(ret_dataMat_g)[0] < toln or\
                    np.shape(ret_dataMat_l)[0] < toln:  # 如果划分后的两个子结点其中有一
                                                        # 个不满足最低的样本数限制，就直接计算当前结点的总误差
                current_S = reg_error(dataMat)
            else:
                current_S = reg_error(ret_dataMat_l) + reg_error(ret_dataMat_g)
            if current_S < best_S:
                best_S = current_S
                best_featIndex = featIndex
                best_featValue = featValue
    return best_featIndex, best_featValue


# RF
# 输入：
#       allDataMat:全部样本的全部特征向量构成的矩阵，即X
#       allLabelMat:全部样本的标记构成的向量，即Y
#       T:基学习器数量
# 输出：
#       treeList：所有基学习器构成的列表，即Tree1、Tree2、...、TreeT
#       generalizationErr:泛化误差（采用包外估计OOB）
def RandomForest(allDataMat, allLabelMat, T=200):
    m = np.size(allDataMat, axis=0)
    treeList = []
    estimateLabelMat = np.mat(np.zeros((m, T)))    # 构造矩阵，保存每个基学习器的包外估计
    averageTestingAcc = 0.0     # 基学习器的测试误差均值
    averageTranningAcc = 0.0    # 基学习器的训练误差均值
    for i in range(T):
        sampleDataMat, sampleLabelMat, restSampleIndex = bootstrap_Sample(allDataMat, allLabelMat)
        dataMat = np.hstack((sampleDataMat, sampleLabelMat))
        myTree = createTree(dataMat, choose_best_split_method=choose_best_split_RF, sampleFeatNum=3)
        Y_hat = estimate_newMat(myTree, dataMat)
        trainingAcc = np.sum(Y_hat == dataMat[:, -1]) / np.shape(dataMat)[0]
        print("The ", i+1, " Base Learner's Training Set Accuracy: ", trainingAcc)
        while trainingAcc <= 0.5:   # 确保每个基学习器满足条件
            print("This Base Learner dissatisfy Base Learner's Request(trainingAcc > 0.5)!")
            sampleLabelMat, sampleDataMat, restSampleIndex = bootstrap_Sample(allDataMat, allLabelMat)
            dataMat = np.hstack((sampleDataMat, sampleLabelMat))
            myTree = createTree(dataMat, choose_best_split_method=choose_best_split_RF, sampleFeatNum=3)
            Y_hat = estimate_newMat(myTree, dataMat)
            trainingAcc = np.sum(Y_hat == dataMat[:, -1]) / np.shape(dataMat)[0]
            print("The ", i+1, " Base Learner's Training Set Accuracy: ", trainingAcc)
        newDataMat = np.hstack((allDataMat[restSampleIndex, :], allLabelMat[restSampleIndex, :]))   # 未被选中的原始样本
        Y_hat = estimate_newMat(myTree, newDataMat)
        testingAcc = np.sum(Y_hat == newDataMat[:, -1]) / np.shape(newDataMat)[0]
        print("The ", i+1, " Base Learner's Testing Set Accuracy: ", testingAcc)
        averageTestingAcc += testingAcc / T
        averageTranningAcc += trainingAcc / T
        Y_hattmp = np.zeros((m, 1))
        Y_hattmp[restSampleIndex, ] = Y_hat
        estimateLabelMat[:, i] = np.mat(Y_hattmp)
        treeList.append(myTree)
    labelNum = len(set(allLabelMat.T.tolist()[0]))
    statisticsMat = np.mat(np.zeros((m, labelNum)))
    for i in range(labelNum):
        statisticsMat[:, i] = np.sum(estimateLabelMat == i+1, axis=1)
    estimateLabel = np.argmax(statisticsMat, axis=1) + 1   # 采用投票法（非加权）进行包外估计
    generalizationErr = 1 - np.sum(estimateLabel == allLabelMat)/m  # 计算泛化误差
    print("--------------------------------------------------------------------")
    print("Base Learners' Average Testing Error: ", 1-averageTestingAcc)
    print("Base Learners' Average Tranning Error: ", 1-averageTranningAcc)
    print("RF's Generalization Error: ", generalizationErr)
    return treeList


startT = time.time()
treeList = RandomForest(allDataMat, allLabelMat)
stopT = time.time()
print(treeList)
print(stopT - startT)

算法效果

文章之前提到过，对原始数据集进行bootstrap构建新数据集，有大约36.8%的原始样本没有被选到，在实验中对这一点进行了验证，下图是构建某个基学习器时的boostrap对原始数据的采样率，由于篇幅限制，这里只截取了其中一个基学习器的具体训练情况，训练其他基学习器时的boostrap采样率也大致围绕在66%上下。

上图展现出来的另一个问题是基学习器的泛化性能，可以看出基学习器在训练集上的误差与测试集上的误差率之差高达10%，当然这不代表所有基学习器的情况，但是由于过拟合导致泛化性能较低的情况依旧存在。

上图是Bagging的训练情况，采用200棵CART树作为基学习器，可以看出基学习器的训练误差平均值与测试误差平均值差了4.5%，其中不乏有一些泛化性能较低的基学习器，因此这些基学习器的训练误差与测试误差差别更大，采用Bagging后，训练误差与泛化误差之间的误差率降低到3.2%，在数据集上的分类正确率达到95.3%，因此，可以证明Bagging可以有效的提高泛化性能。

上图是RandomForest的训练情况，同样采用200棵CART树作为基学习器，由于RandomForest在训练基学习器的过程中，加入了输入属性随机性（在选择CART结点时只考虑几个随机属性），因此可以看出平均训练误差比之前Bagging中的略高一点点，这里我偷了点懒，根据上文介绍，RandomForest实际上有两种实现方式：Random Input和Random Combin，在原始属性个数较少时，应该采用RandomForest-RC这种方式，由于本代码使用的数据集的属性只有4个，设置的随机属性个数为2，因此泛化性能只是得到了略微提高，从最终结果中可以看出，RF将误差的差值从4.5%降低到2.3%。
需要注意的是，泛化性能随着基学习器的数量增多，总体上会呈现上升的趋势，但是当数量过多时，这种提升会变得不那么明显，另外，基学习器性能的降低也会影响集成学习器的性能，大家有兴趣的话可以在其他数据集上进行试验。最后说明一点，由于RF在训练CART的过程中将最优划分的搜索范围缩小了，因此运行时间要少于Bagging，例如前两幅图中，Bagging的训练时间是10.12s，RF则是7.64s。Sklearn中也有实现好的RandomForest算法，网上的教程比较多，这里就不做展示了，我的这个代码主要是帮助大家理解其中的基本训练过程，如果没有在其他数据集上体现出期望效果请见谅。

数据集

IRIS.data

（更新）RF如何评估特征重要性

在构建RF的基学习器时，常常会遇到树结点划分问题，这时需要对数据集特征的重要性进行评估，主要有以下两种方法：
1）基于基尼系数，也是CART树节点划分的基本准则（与该方法类似，本文采用的是CART模型树，因此使用加权回归误差评估结点纯度，使用CART分类树模型时，即可采用基尼系数，见《C&RT（CART）详解》）；
2）基于袋外数据（OOB）对当前模型进行误差评估，得到误差值E，然后随机打乱袋外数据的某个特征下的特征值，使用打乱后的数据对模型进行误差评估，得到误差值e，即可根据E与e之间的差值，评估特征对模型的重要性。其中，数据打乱的方法有：
a.在打乱某个样本点时，基于均匀分布\高斯分布对该特征所有出现过的值进行随机采样，并替换该样本点对应特征处的值；
b.对该特征下数据集中的特征值出现顺序重新打乱，即对该特征进行置换检验（Permutation Test），这种方法的好处是，可以保证该特征下特征值的稳定分布。

Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
踏上人工智能之旅（一）-----机器学习之knn算法 Sunhen_Qiletian 人工智能机器学习算法 python
目录一、机器学习是什么（1）概述（2）三种类型1.监督学习（SupervisedLearning）：2.无监督学习（UnsupervisedLearning）：3.强化学习（ReinforcementLearning）：二、KNN算法的基本原理：1.距离度量：2.K值的选择：3.投票机制和投票：三、Python实现KNN算法1.导入必要的库和数据：2.提取特征和标签：3.导入KNN分类器并训练模型
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
Python金融分析：情感分析在量化价值投资中的完整实现 AI量化价值投资入门到精通 python 金融开发语言 ai
Python金融分析：情感分析在量化价值投资中的完整实现关键词：Python金融分析、情感分析、量化投资、价值投资、自然语言处理、机器学习、金融文本挖掘摘要：本文系统解析如何将情感分析技术深度整合到量化价值投资体系中，通过Python实现从金融文本数据采集、预处理、情感建模到策略回测的完整流程。详细阐述基于规则引擎、机器学习和深度学习的多维度情感分析方法，结合财务指标构建复合投资模型，并通过实战案
通用图片 OCR 到 Word API 数据接口 2301_78772565 ocr
通用图片OCR到WordAPI数据接口高可用图像识别引擎，基于机器学习，超精准识别率。1.产品功能通用的识别接口，支持多种图片格式；支持中英文字符混合识别；支持Base64以及网络地址传参；基于机器学习不断提高的识别率；输出的Word文件永久存储；数据持续更新与维护；全接口支持HTTPS（TLSv1.0/v1.1/v1.2/v1.3）；全面兼容AppleATS；全国多节点CDN部署；接口极速响应，
机器学习模型评估：交叉验证、混淆矩阵、ROC曲线及其在医学影像领域的应用猿享天开机器学习矩阵人工智能 DICOM医学影像模型评估
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
深入详解：决策树在医学影像分割特征选择中的应用与实现猿享天开决策树算法机器学习人工智能
深入详解：决策树在医学影像分割特征选择中的应用与实现决策树（DecisionTree）作为一种经典的机器学习算法，以其简单、直观和可解释性强的特点，在医学影像分割的特征选择中扮演了重要角色。医学影像分割（如分割脑肿瘤、肝脏、肺结节等）需要从高维影像数据中提取关键特征，以提升分割模型的精度和效率。决策树通过构建树形结构，筛选对分割任务最重要的特征，降低数据维度，同时提供可解释的规则。本文将从原理、实
机器学习概述炀水机器学习人工智能
一、机器学习算法与流程（一）、机器学习的主要流程：1.明确分析目标，2.数据收集，3.数据预处理，4.建模分析，5.结果评估，6.部署使用以及学习更新。1.明确分析目标：客观反映用户需求，通过对各类人群的深入分析，为相关部门制订资费、服务、市场策略提供基础。2.数据收集：收集相关的数据，充足、全面的高质量数据是机器学习的基础。3.数据预处理：数据可能存在着噪声、不一致、异常、个人隐私保护等各类问题
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f