pen-ai

【统计方法】交叉验证：Resampling, nested 交叉验证等策略【含R语言】

Resampling (重采样方法)

重采样方法是从训练数据中反复抽取样本，并在每个（重新）样本上重新调整模型，以获得关于拟合模型的附加信息的技术。

两种主要的重采样方法

Cross-Validation (CV) 交叉验证：用于估计测试误差和选择调优参数
Bootstrap ：主要用于评估可变性，如标准误差和置信区间

估计测试误差的策略

gold standard：理想但无法实现（黄金标准）

使用大型指定测试集（通常不可用），在实际应用中，如果已经有了大量的数据，更好的方式是用来作为训练集，因为数据更多更有可能获得更好的模型，而不是把大批量的数据来拿测试，这算是一种浪费。

调整训练误差来估计测试误差

在模型评估中，常常会加入惩罚项（penalty term）来避免模型过拟合。常见的方法包括：

贝叶斯信息准则（BIC）：在评估模型拟合优度的基础上，对模型的复杂度（参数数量）进行惩罚。参数越多，惩罚越大，从而鼓励选择更简单的模型。

调整后的 $R^2$ （Adjusted $R^2$ ）：在普通 $R^2$ 的基础上对自变量个数进行修正。即使加入变量能提高 $R^2$ ，如果变量没有显著贡献，调整后的 $R^2$ 可能反而降低。

交叉验证

将数据随机分成两半（random split into two halves）的缺点

高方差结果（High variance）
一次性分割可能恰好造成数据分布不均，比如某类样本偏多出现在某一半，导致评估结果不稳定、代表性差。
样本利用率低（Inefficient use of data）
仅一半数据用于训练，可能模型没有充分学习；另一半用于测试，也不能多次评估，浪费了数据资源。
不能可靠反映模型泛化能力
如果划分不好，模型可能在这次测试集上表现好，但对其他数据表现差，评估不具备稳健性。例如可能在数据集上划分了大量outliers离群点。
结果依赖单次随机划分（Split-dependence）
不同随机种子下划分结果可能大相径庭，模型评估不具备重复性和一致性。

The estimate of the test error can be highly variable.
only a subset of the observations are used to fit the model, test set error may tend to overestimate the test error for the model fit on the entire data set.

交叉验证（Cross Validation）在统计学习中的应用

引言

在构建统计学习模型时，我们通常希望评估模型在未见数据上的表现。简单地在训练数据上计算误差往往会产生过于乐观的结果，因为模型可能对训练集过拟合了。为了获得对模型泛化能力的客观估计，我们需要将数据划分为训练部分和评估部分。**交叉验证（Cross Validation）**是一种常用的技术手段，它通过多次划分和训练模型，帮助我们更可靠地估计模型的测试误差，并用于模型选择和参数调优。本文将系统介绍交叉验证的概念、方法及其在模型训练、特征选择、模型评估中的应用，并通过R语言示例进行演示。

1. 交叉验证的基本概念与目的

交叉验证是一种评估模型泛化性能的方法，其核心思想是：反复将数据集划分为训练集和验证集，多次训练模型并计算在验证集上的误差，以此来估计模型对未知数据的表现。与仅依赖单一训练/测试划分相比，交叉验证能够更充分地利用有限的数据，减少由于一次偶然划分造成的评估偏差。

交叉验证示意图：将数据集分成n折，每一折数据依次作为验证集，其余作为训练集。经过n次训练和验证，取验证结果的平均值作为模型的性能估计。

交叉验证的主要目的包括：

测试误差估计：通过在未参与训练的数据上评估模型，多折验证能够更可靠地估计模型的测试误差（即模型在新数据上的误差）。
模型选择：比较不同模型或不同参数设定下模型的表现，选择泛化性能最优的模型。
防止过拟合：通过保留验证集来检验模型复杂度，避免仅关注训练误差导致过拟合的情况。

常用的交叉验证方法有多种，包括简单留出法、k折交叉验证等，下文将详细介绍。

2. 训练误差与测试误差的区别

在讨论交叉验证之前，理解训练误差和测试误差的区别是非常重要的。训练误差是模型在训练数据上得到的误差，由于模型是在训练集上优化的，因此训练误差往往偏低甚至趋近于0。而测试误差指模型在新数据（未参与训练的数据）上的误差，它更能反映模型的泛化能力。

模型过于简单（欠拟合）时，训练误差和测试误差都会很高。
模型逐渐复杂时，训练误差通常会降低，而测试误差开始也降低。但当模型复杂度过高（过拟合）时，训练误差可能继续降低，而测试误差反而升高，因为模型已经对训练集的噪声和细节进行了过度拟合。

简而言之，训练误差总是倾向于低估测试误差。因此，在模型评估和选择时，我们更关注测试误差的估计，而交叉验证正是用于获得更准确的测试误差估计的一种工具。

3. 测试误差的估计方法

要评估模型在未知数据上的表现，我们需要采用恰当的方法来估计测试误差。以下是几种常用的测试误差估计策略：

留出法（测试集法）：将数据集随机划分为两部分，例如70%作为训练集，30%作为测试集。我们在训练集上训练模型，然后在测试集上评估误差。这种方法实现简单，所需计算量低。然而，它的估计可能对那一次划分比较敏感：如果运气不好，训练集和测试集的划分不具有代表性，评估结果就可能不可靠。此外，将部分数据留作测试意味着用于训练的数据变少了，在数据量本就有限时会损失训练效果。
$k$ 折交叉验证（ $k$ -fold Cross Validation）：这是交叉验证中最常用的方法。步骤为：
- 将数据集尽可能平均地随机分成 $k$ 个不重叠的子集（折，fold），一般 $k = 5$ 或 $10$ 比较常用。
- 重复 $k$ 次训练-验证过程：每次选择其中一个子集作为验证集（测试集），将剩余的 $k - 1$ 个子集合并作为训练集，在训练集上训练模型，并计算在该次验证集上的误差。
- $k$ 次迭代后，会得到 $k$ 个在不同验证集上的误差值。将这 $k$ 个误差取平均，就得到 $k$ 折交叉验证估计的测试误差，即 $\text{CV}*{(k)} = \frac{1}{k}\sum*{i=1}^{k} \text{Err}_i$ （其中 $\text{Err}_i$ 表示第 $i$ 折验证时的误差）。
$k$ 折交叉验证充分利用了数据：每个样本都恰好作为一次验证集，其余 $k - 1$ 次作为训练集。相对于简单留出法，交叉验证的评估结果对数据划分的依赖性较小，因此更加稳健。
在常用的5折或10折交叉验证中，我们舍弃的只是每次用于验证的1/k数据，因而比单次留出法更高效。需要注意的是，折数 $k$ 越大，训练模型的次数越多，计算成本也越高；当 $k$ 等于样本数 $n$ 时，就是留一法（LOOCV），需要训练 $n$ 次模型，一般只在小数据集情况下使用。
重复交叉验证（Repeated Cross Validation）：为了进一步提高评估的稳定性，我们可以多次重复进行 $k$ 折交叉验证。具体做法是多次随机将数据分成 $k$ 折，每次都计算一次 $k$ 折交叉验证误差，最后对多次结果再取平均。重复交叉验证可以在一定程度上降低评估结果对单次随机划分的依赖，从而提供更低偏差的误差估计，并且还能计算出交叉验证误差的方差以评估不确定性。当然，这也意味着更高的计算开销。
嵌套交叉验证（Nested Cross Validation）：当我们不仅要评估模型性能，还需要在训练过程中进行参数调优或特征选择时，应该使用嵌套交叉验证来避免优化过程对评估造成偏差。嵌套交叉验证包括外层和内层两层循环：外层循环负责最终的性能评估，内层循环用于在训练集上选择最佳的模型参数/特征。例如，外层使用10折交叉验证评估模型，在每一个外层折中，利用内层交叉验证在当前训练集上调优模型的超参数，然后在当前外层的验证集上评估性能。这样确保了超参数的选择只基于训练数据，最终在外层验证集上的评估是公平的未见数据误差估计。嵌套交叉验证常用于模型选择、超参数调整，以防止在调优过程中发生信息泄漏和过拟合评估。

小结：选择何种测试误差估计方法取决于数据量和模型需求。留出法简单直接但可能不稳定；k折交叉验证平衡了偏差和方差，在数据量有限时很常用；重复交叉验证进一步稳定结果；嵌套交叉验证则在需要调优时提供了更可靠的评估。实践中，5或10折交叉验证是常见默认选择，当涉及大量参数调整时则应考虑嵌套交叉验证。

4. 特征选择中的信息泄露问题及正确的交叉验证预处理

在模型训练过程中，我们通常需要进行一些数据预处理步骤，例如特征选择、缺失值填补、数据标准化以及超参数调优等。一个常见的错误是：在将数据划分训练/验证之前就预先在整个数据集上执行这些操作。这种做法会导致信息泄露（Information Leakage），使得本应独立的验证集“泄露”出信息到训练过程中，进而产生过于乐观的估计结果

举例来说，假设我们有一个高维数据集，在整个数据集上计算每个特征与响应变量的相关性，选出相关性最高的50个特征来建模，然后采用交叉验证评估模型性能。看似合理的流程实际上存在严重漏洞：因为特征选择时使用了整个数据集，其中也包含了交叉验证中每一折的验证集信息。换言之，模型在训练时已经“窥视”了验证集的内容——验证集不再是真正独立的未见数据。这种信息泄露会违反交叉验证的基本原则（验证数据不参与任何训练或预处理），往往令模型的测试误差估计过于乐观，尤其在高维数据下可能导致对噪声的过拟合。

正确的做法是将所有数据驱动的预处理步骤严格限制在训练集内部进行。也就是说，对于交叉验证的每一个折，我们都应当：先在训练折上独立地完成特征选择、缺失值填补、数据标准化以及模型调参等操作；然后使用训练折处理过的数据训练模型，最后再用该模型对对应的验证折进行预测评估。这样可以确保验证集在整个训练过程中是完全独立的。

需要强调的几个避免信息泄露的要点：

特征选择：在每个训练折上根据训练数据本身选择特征，不可在全数据或验证数据上挑选特征后再评估。
缺失值填补/标准化：均应只利用训练折的数据计算填补值或均值方差等标准化参数，并将这些参数应用于验证集。
超参数调优：如果需要调参，最好在训练集上通过内层交叉验证找到最佳参数，然后在验证集上评估（即嵌套交叉验证，上节提到）。
早停（early stopping）：如果使用早停法避免过拟合，也应确保验证集用于早停的判断不同于最终评估的测试集。如果在交叉验证内早停，应当把早停的监控也限制在训练折上（例如再做一层拆分）。

总之，任何会从数据中学习到信息的步骤，都必须仅在训练数据中完成，不能让验证/测试数据“泄露”给模型训练过程。一旦正确地在交叉验证框架下执行预处理，我们才能对评估的模型性能充满信心，否则就有可能高估模型在真正未知数据上的效果。

5. 如何利用交叉验证进行模型选择

交叉验证不仅可以评估单个模型的性能，还可以作为模型选择的工具。通常我们可能有多种候选模型（或不同算法），希望挑选出在给定任务上表现最好的一个。例如，我们想在一个数据集上比较 $k$ 近邻（kNN）、线性判别分析（LDA）、逻辑回归（Logistic Regression）和支持向量机（SVM）这几种算法。我们可以对每一种算法都进行交叉验证来评估其测试误差，然后选择平均验证集表现最好的模型。

具体而言，模型选择流程如下：

交叉验证评估：对每个候选模型，使用相同的划分（例如5折CV）评估其性能。为公平比较，通常我们对每种模型采用相同的训练/验证划分方案（可以通过设置相同的随机种子或在外层手动划分数据集来保证），以减少数据划分差异带来的影响。交叉验证可以提供每种模型的平均性能指标（例如平均准确率、平均AUC等）。
比较性能：将所有模型的交叉验证结果进行比较，一般关注主要评价指标的平均值，同时也可以考虑它们在各折的波动情况。如果某个模型在验证集上的表现显著优于其它模型，那么可以认为它更可能在未见数据上取得更好效果。
选择最佳模型：选择验证性能最优的模型作为最终模型候选。如果差异不大，也可以考虑模型的复杂度（偏好更简单的模型）或其它业务因素来定夺。
用全数据训练最终模型：一旦确定了最佳模型类型和对应的超参数（若有调优），通常最后会使用全部数据重新训练该模型用于投入使用。因为交叉验证已经尽可能地用了数据评估性能，最终我们希望充分利用所有数据来得到一个最终模型。在使用全部数据训练时，我们不再需要保留验证集，因为模型选择过程已经完成。

需要注意，在比较模型时，若涉及超参数调优，应该将调优也整合在交叉验证过程中，以免因调参造成不公平的比较。例如，可以对每个模型分别做嵌套交叉验证（内层调参，外层评估）来取得其最佳性能，再进行比较。

通过交叉验证进行模型选择可以有效避免选择偏差：直接在训练集上比较模型往往会偏好更复杂的模型（因为复杂模型能更好拟合训练集，取得更低训练误差），但通过交叉验证，我们比较的是各模型对未见数据的预测能力，从而更客观公正。

6. 分类模型的评估指标

在交叉验证估计出模型的性能后，我们还需要查看具体的评估指标来理解模型在分类任务上的表现。对于分类模型，常用的评估指标包括混淆矩阵及由其衍生出的多种度量，例如准确率（Accuracy）、精确率（Precision）、召回率（Recall，也称灵敏度Sensitivity）、特异度（Specificity）、F1分数、以及ROC曲线和AUC值等。本节将介绍这些指标及它们的含义，并讨论类不平衡问题的影响。

**混淆矩阵（Confusion Matrix）**是分类结果的基础分析工具。对于二分类问题，混淆矩阵通常以实际类别和预测类别的组合来统计结果：

实际\预测	正类（Positive）	负类（Negative）
正类（Positive）	真阳性 (TP)	假阴性 (FN)
负类（Negative）	假阳性 (FP)	真阴性 (TN)

真阳性（True Positive, TP）：实际为正类，且被模型预测为正类的样本数。
真阴性（True Negative, TN）：实际为负类，且被预测为负类的样本数。
假阳性（False Positive, FP）：实际为负类，但被错误地预测为正类的样本数。
假阴性（False Negative, FN）：实际为正类，但被错误地预测为负类的样本数。

通过混淆矩阵，我们可以计算出多种评估指标：

准确率（Accuracy）：模型预测正确的比例，即 $\dfrac{TP + TN}{TP + TN + FP + FN}$ 。准确率直观易懂，但在类别不平衡时可能具有误导性。例如，如果正类仅占1%，一个始终预测“负类”的模型在不平衡数据集上也有99%的准确率，但显然它毫无实用价值。
精确率（Precision）：预测为正的样本中实际为正的比例，即 $\dfrac{TP}{TP + FP}$ 。精确率刻画了模型的准确性：当模型判定为正类时，有多少比例是真的正类。精确率低意味着误报（假阳性）多。
召回率（Recall 或 Sensitivity，灵敏度）：实际为正的样本中被正确预测为正的比例，即 $\dfrac{TP}{TP + FN}$ 。召回率反映了模型对正类的检出能力：正类中有多少被模型捕获。召回率低则说明漏报（假阴性）多。
特异度（Specificity）：实际为负的样本中被正确预测为负的比例，即 $\dfrac{TN}{TN + FP}$ 。特异度衡量对负类的区分能力，有时与召回率对应，一个关注正类，一个关注负类。
F1 分数：精确率和召回率的调和平均 $\times \dfrac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$ 。F1分数综合了精确率和召回率，当需要兼顾Precision和Recall的平衡时，F1是一个有用的指标。
ROC曲线（Receiver Operating Characteristic）：ROC曲线是评价二分类模型性能的常用工具。它以真正例率（Recall，即TPR）为纵轴，假正例率（FPR = 1 - Specificity）为横轴，描绘出模型在不同判别阈值下的性能。每个点对应一个阈值下模型的（FPR, TPR）值，曲线从(0,0)到(1,1)连贯。模型越靠近左上方点(0,1)，说明FPR低且TPR高，性能越好。

ROC曲线示例：纵轴为真正例率（TPR），横轴为假正例率（FPR）。黄色曲线为模型的ROC，灰色虚线表示随机猜测的水平（AUC=0.5）。曲线越靠近左上角表示模型判别能力越强。

AUC（Area Under the Curve）：即ROC曲线下的面积，是对模型整体性能的度量。AUC取值在0.5～1之间，越接近1越好。随机猜测模型的AUC约为0.5，而完美分类器的AUC为1。AUC具有阈值无关性，特别适合评估样本类别不平衡下模型的好坏，因为它考察的是各种阈值下模型整体的区分能力，而不像准确率那样受特定阈值和类别比例影响。

在类别不平衡问题下（例如正类样本远少于负类），评估指标的选择尤为重要。此时高准确率可能没有意义，通常我们更关注模型对少数类的识别能力，例如Precision、Recall和F1等。如果希望综合考虑模型的误报和漏报，可以使用F1分数作为主要指标；如果需要比较不同模型在不平衡数据集上的总体区分能力，ROC曲线及其AUC是很有价值的工具。实际上，正因为ROC/AUC对类别分布不敏感，它经常被用来挑选在不平衡数据上的模型。

除了上述指标，有时还会根据任务需求采用其他指标（如Kappa系数、PR曲线下的AUC等），但万变不离其宗，它们都是从混淆矩阵衍生而来，关注的是模型预测的各类情况。选择指标时应结合业务场景：例如在疾病筛查中，更看重召回率（希望尽可能检出病例）；而在垃圾邮件过滤中，也许精确率更重要（不希望误判正常邮件为垃圾）。

7. R语言中的交叉验证实践示例

下面我们通过一个R语言的示例，将上述概念串联起来，展示如何在实践中使用交叉验证进行模型训练、模型选择和最终评估。我们将使用caret包来简化交叉验证和模型比较，并使用pROC包来计算ROC/AUC等指标。

首先，加载必要的包并准备示例数据集。这里我们使用caret包的内置函数twoClassSim生成一个模拟的二分类数据集，其中包含1000条训练数据和300条独立的测试数据。我们假定正类记作“Class1”，负类记作“Class2”。随后，我们将在训练集上同时训练四种模型（kNN, LDA, Logistic Regression和SVM），并使用5折交叉验证评估它们的性能，以选择最优模型。最后，我们在独立测试集上评估所选模型的各项指标。

# 安装并加载所需包
install.packages("caret")
install.packages("pROC")
library(caret)
library(pROC)

# 设置随机种子以保证可重复性
set.seed(42)

# 生成模拟的训练和测试数据集
trainData <- twoClassSim(1000)   # 1000条训练数据
testData  <- twoClassSim(300)    # 300条测试数据（独立于训练集）
# 查看数据集基本情况
str(trainData)
# 'data.frame':	1000 obs. of  21 variables:
# $ Class: Factor w/ 2 levels "Class1","Class2": 2 2 1 2 1 ...
# $ TwoFactor1: Ord.factor w/ 2 levels "Class1"<"Class2": ...
# $ TwoFactor2: Ord.factor w/ 2 levels "Class1"<"Class2": ...
# $ Linear01: num  -0.15  0.19  1.34  1.11 -0.29 ...
# ...（其余特征列省略）

上面我们生成了一个模拟的二分类任务数据集。trainData包含21个变量，其中前20个是特征，最后一列Class是类别标签（因子类型，有“Class1”和“Class2”两个取值）。testData是独立的测试集，用于最终检验模型泛化能力。

接下来，我们在训练集上设置5折交叉验证，并同时训练四种模型用于比较。我们使用caret包的trainControl函数来指定交叉验证参数：method="cv", number=5表示5折CV；由于是分类任务，我们还设定classProbs=TRUE来计算概率以便评估ROC，summaryFunction=twoClassSummary来使模型训练时以ROC为主要评估指标（AUC值越高越好）。

# 定义训练控制参数：5折交叉验证
ctrl <- trainControl(method="cv", number=5,
                     classProbs=TRUE,           # 计算概率，以便算ROC
                     summaryFunction=twoClassSummary)  # 使用twoClassSummary以便获得ROC指标

# 在训练集上训练多种模型并进行交叉验证评估
set.seed(42)
model_knn <- train(Class ~ ., data=trainData, method="knn",
                   metric="ROC", trControl=ctrl)
model_lda <- train(Class ~ ., data=trainData, method="lda",
                   metric="ROC", trControl=ctrl)
model_glm <- train(Class ~ ., data=trainData, method="glm",
                   metric="ROC", trControl=ctrl)  # 广义线性模型，默认即逻辑回归
model_svm <- train(Class ~ ., data=trainData, method="svmRadial",
                   metric="ROC", trControl=ctrl)

# 查看各模型的交叉验证结果（ROC均值等）
resamps <- resamples(list(kNN=model_knn, LDA=model_lda,
                          Logistic=model_glm, SVM=model_svm))
summary(resamps)

上述代码会输出每个模型在5折验证中的平均ROC值（AUC）以及其他指标（比如Accuracy，如果twoClassSummary还返回了其他度量）。假设输出结果显示各模型的平均ROC如下（这里只是举例，具体数值以实际运行结果为准）：

Resampling results:
  ROC       
kNN       0.87 
LDA       0.89 
Logistic  0.88 
SVM       0.92 

ROC SD    
kNN       0.03
LDA       0.04
Logistic  0.05
SVM       0.02

从假定的结果可以看到，SVM模型的平均ROC值最高（0.92），略高于LDA和Logistic，kNN略逊一些。我们由此可以判断，在这个数据集上SVM模型泛化性能最好（以AUC为评价标准）。因此，我们选择SVM作为最终模型。

需要注意的是，caret::train()在完成交叉验证后，已经自动使用整个训练集训练了一个最终的SVM模型（即model_svm$finalModel），该模型的超参数为交叉验证过程中得到的最优值。如果想查看选择的超参数，可使用model_svm$bestTune。

接下来，我们将选择的模型（SVM）应用在独立的测试集上，评估它的实际性能，包括混淆矩阵、准确率、精确率、召回率、F1以及AUC值等。

# 用训练好的最佳模型对测试集进行预测
best_model <- model_svm
test_pred <- predict(best_model, newdata=testData)            # 类别预测
test_prob <- predict(best_model, newdata=testData, type="prob")  # 获得属于Class1的概率

# 混淆矩阵及统计指标
cm <- confusionMatrix(test_pred, testData$Class, positive="Class1")
cm$table  # 查看混淆矩阵
cm$overall["Accuracy"]  # 准确率
cm$byClass[c("Sensitivity","Specificity","Precision","F1")]  # 查找主要指标

caret::confusionMatrix函数可以方便地计算混淆矩阵和多种指标。其中，我们特别指定了positive="Class1"，将“Class1”视为正类。这样cm$byClass返回的Sensitivity、Precision等就对应于我们关心的正类（Class1）。假设输出结果如下：

Confusion Matrix (positive = Class1):
           Reference
Prediction  Class1 Class2
   Class1      120     30
   Class2       10    140

Accuracy : 0.8667          
Sensitivity (Recall) : 0.9231  # 正类召回率 = 120/(120+10)
Specificity : 0.8235          # 负类特异度 = 140/(140+30)
Precision : 0.8000           # 正类精确率 = 120/(120+30)
F1 : 0.8571                  # 正类F1分数

从混淆矩阵我们看到，在测试集上共有120个正类被正确分类为正（TP），10个正类被错分为负（FN），30个负类被错分为正（FP），140个负类被正确分类为负（TN）。由此计算的各指标如上：准确率约86.7%，正类召回率约92.3%，正类精确率80.0%，F1分数约0.857。这些指标表明模型对正类有较高的检出率，但也有一定的误报（precision为80%意味着还有20%的正类预测是错误的）。具体是否满意要看应用场景，例如如果这是一个疾病筛查模型，也许我们愿意接受一些误报来保证高召回率。

最后，我们计算模型在测试集上的ROC曲线和AUC：

# 计算ROC曲线和AUC
roc_obj <- roc(response=testData$Class,
               predictor=test_prob[,"Class1"],  # 使用正类的预测概率
               levels=levels(testData$Class))   # 指定因子水平顺序
auc(roc_obj)   # 输出AUC值
plot(roc_obj)  # 绘制ROC曲线

这将输出模型在测试集上的AUC值，并绘制对应的ROC曲线。通过AUC可以直观了解模型整体分类性能是否良好。在我们的模拟例子中，假如AUC达到0.92左右，也印证了我们通过交叉验证选择SVM模型的决策是合理的。

至此，我们完成了一个完整的流程：数据准备 -> 交叉验证比较模型 -> 选择最佳模型并在测试集评估 -> 输出各种性能指标和曲线。这个流程体现了交叉验证在统计学习中的重要作用。使用R的caret包让我们能够方便地完成这些步骤，其中trainControl、train、resamples、confusionMatrix、roc/auc等函数分别对应了交叉验证设置、模型训练评估、结果汇总比较、混淆矩阵分析和ROC分析等任务。

小结

交叉验证是统计学习中评估模型不可或缺的工具。它通过反复将数据划分训练和验证来更可靠地估计模型对未知数据的误差，从而指导我们进行模型选择和调优。本文讨论了交叉验证的概念和目的，强调了训练误差与测试误差的区别；介绍了从留出法、k折验证、重复验证到嵌套验证的各种方法及其适用场景；提醒了在特征选择等预处理中避免信息泄露的重要性和正确做法；探讨了分类模型评估的多种指标，尤其在类不平衡情况下应慎重选择评价标准；最后通过R语言示例演示了如何将交叉验证应用于模型训练和比较的实践过程。

掌握交叉验证的方法，能够让我们在模型开发中更加游刃有余——既能充分利用宝贵的数据，又能防止过拟合，选择出更优的模型并准确评估其性能。希望这篇教程能够帮助具有基础统计和R编程能力的读者系统了解交叉验证的应用，为后续更深入的机器学习模型优化打下良好基础。

参考文献：

Gareth James, et al. An Introduction to Statistical Learning, 10th printing, 2017: 第5章 Resampling Methods （介绍了交叉验证和自助法等重抽样技术的原理和应用）。
Wikipedia: Cross-validation (statistics)（关于嵌套交叉验证的解释）。

你可能感兴趣的:(数据科学,r语言,python,深度学习)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

【统计方法】交叉验证：Resampling, nested 交叉验证等策略 【含R语言】