猛犸MAMMOTH

Python打卡第13天@浙大疏锦行

@浙大疏锦行

不平衡数据集的处理

数据预处理

# 先运行之前预处理好的代码
import pandas as pd
import pandas as pd    #用于数据处理和分析，可处理表格数据。
import numpy as np     #用于数值计算，提供了高效的数组操作。
import matplotlib.pyplot as plt    #用于绘制各种类型的图表
import seaborn as sns   #基于matplotlib的高级绘图库，能绘制更美观的统计图形。
import warnings
warnings.filterwarnings("ignore")
 
 # 设置中文字体（解决中文显示问题）
plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows系统常用黑体字体
plt.rcParams['axes.unicode_minus'] = False    # 正常显示负号
data = pd.read_csv('data.csv')    #读取数据


# 先筛选字符串变量 
discrete_features = data.select_dtypes(include=['object']).columns.tolist()
# Home Ownership 标签编码
home_ownership_mapping = {
    'Own Home': 1,
    'Rent': 2,
    'Have Mortgage': 3,
    'Home Mortgage': 4
}
data['Home Ownership'] = data['Home Ownership'].map(home_ownership_mapping)

# Years in current job 标签编码
years_in_job_mapping = {
    '< 1 year': 1,
    '1 year': 2,
    '2 years': 3,
    '3 years': 4,
    '4 years': 5,
    '5 years': 6,
    '6 years': 7,
    '7 years': 8,
    '8 years': 9,
    '9 years': 10,
    '10+ years': 11
}
data['Years in current job'] = data['Years in current job'].map(years_in_job_mapping)

# Purpose 独热编码，记得需要将bool类型转换为数值
data = pd.get_dummies(data, columns=['Purpose'])
data2 = pd.read_csv("data.csv") # 重新读取数据，用来做列名对比
list_final = [] # 新建一个空列表，用于存放独热编码后新增的特征名
for i in data.columns:
    if i not in data2.columns:
       list_final.append(i) # 这里打印出来的就是独热编码后的特征名
for i in list_final:
    data[i] = data[i].astype(int) # 这里的i就是独热编码后的特征名



# Term 0 - 1 映射
term_mapping = {
    'Short Term': 0,
    'Long Term': 1
}
data['Term'] = data['Term'].map(term_mapping)
data.rename(columns={'Term': 'Long Term'}, inplace=True) # 重命名列
continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist()  #把筛选出来的列名转换成列表
 
 # 连续特征用中位数补全
for feature in continuous_features:     
    mode_value = data[feature].mode()[0]            #获取该列的众数。
    data[feature].fillna(mode_value, inplace=True)          #用众数填充该列的缺失值，inplace=True表示直接在原数据上修改。

# 最开始也说了 很多调参函数自带交叉验证，甚至是必选的参数，你如果想要不交叉反而实现起来会麻烦很多
# 所以这里我们还是只划分一次数据集
from sklearn.model_selection import train_test_split
X = data.drop(['Credit Default'], axis=1)  # 特征，axis=1表示按列删除
y = data['Credit Default'] # 标签
# 按照8:2划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 80%训练集，20%测试集

基准模型

输入：


from sklearn.ensemble import RandomForestClassifier #随机森林分类器

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标
from sklearn.metrics import classification_report, confusion_matrix #用于生成分类报告和混淆矩阵
import warnings #用于忽略警告信息
warnings.filterwarnings("ignore") # 忽略所有警告信息
# --- 1. 默认参数的随机森林 ---
# 评估基准模型，这里确实不需要验证集
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
import time # 这里介绍一个新的库，time库，主要用于时间相关的操作，因为调参需要很长时间，记录下会帮助后人知道大概的时长
start_time = time.time() # 记录开始时间
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train) # 在训练集上训练
rf_pred = rf_model.predict(X_test) # 在测试集上预测
end_time = time.time() # 记录结束时间

print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred))
print("默认随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred))

输出：

--- 1. 默认参数随机森林 (训练集 -> 测试集) ---
训练与预测耗时: 1.3024 秒

默认随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.77      0.97      0.86      1059
           1       0.79      0.30      0.43       441

    accuracy                           0.77      1500
   macro avg       0.78      0.63      0.64      1500
weighted avg       0.77      0.77      0.73      1500

默认随机森林 在测试集上的混淆矩阵：
[[1023   36]
 [ 309  132]]

过采样

过采样一般包含2种做法：随机采样和SMOTE
过采样是把少的类别补充和多的类别一样多，欠采样是把多的类别减少和少的类别一样
一般都是缺数据，所以很少用欠采样

随机过采样ROS

随机过采样是从少数类中随机选择样本，并将其复制后添加到训练集。
随机过采样的步骤如下：

1. 确定少数类的样本数。
2. 从少数类中随机选择样本，并将其复制。
3. 将复制的样本添加到训练集。

随机过采样的优点是，它可以增加少数类的样本数，从而提高模型的泛化能力。小。

随机过采样的缺点是，它可能会增加训练集的大小，从而增加训练时间。此外，它可能会增加噪声，并且可能会增加模型的偏差。

输入：

# 以下是添加的过采样代码

# 1. 随机过采样
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=42) # 创建随机过采样对象
X_train_ros, y_train_ros = ros.fit_resample(X_train, y_train) # 对训练集进行随机过采样

print("随机过采样后训练集的形状：", X_train_ros.shape, y_train_ros.shape) 

# 训练随机森林模型（使用随机过采样后的训练集）
rf_model_ros = RandomForestClassifier(random_state=42)
start_time_ros = time.time()
rf_model_ros.fit(X_train_ros, y_train_ros)
end_time_ros = time.time()

print(f"随机过采样后训练与预测耗时: {end_time_ros - start_time_ros:.4f} 秒")

# 在测试集上预测
rf_pred_ros = rf_model_ros.predict(X_test)

print("\n随机过采样后随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred_ros))
print("随机过采样后随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_ros))

输出：

随机过采样后训练集的形状： (8656, 31) (8656,)
随机过采样后训练与预测耗时: 2.2413 秒

随机过采样后随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.77      0.93      0.84      1059
           1       0.67      0.34      0.46       441

    accuracy                           0.76      1500
   macro avg       0.72      0.64      0.65      1500
weighted avg       0.74      0.76      0.73      1500

随机过采样后随机森林 在测试集上的混淆矩阵：
[[985  74]
 [289 152]]

smote过采样

smote过采样是合成样本的方法。
1. 对于少数类中的每个样本，计算它与少数类中其他样本的距离，得到其$k$近邻（一般$k$取5或其他合适的值）。
2. 从K近邻中随机选择一个样本。
3. 计算选定的近邻样本与原始样本之间的差值。
4. 生成一个在0到1之间的随机数。
5. 将差值乘以随机数，然后加到原始样本上，得到一个新的合成样本。
6. 重复上述步骤，直到合成出足够数量的少数类样本，使得少数类和多数类样本数量达到某种平衡。
7. 使用过采样后的数据集训练模型并评估模型性能。

SMOTE的核心思想是通过在少数类样本的特征空间中进行插值来合成新的样本

输入：

# 2. SMOTE过采样
from imblearn.over_sampling import SMOTE 
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)

print("SMOTE过采样后训练集的形状：", X_train_smote.shape, y_train_smote.shape)

# 训练随机森林模型（使用SMOTE过采样后的训练集）
rf_model_smote = RandomForestClassifier(random_state=42)
start_time_smote = time.time()
rf_model_smote.fit(X_train_smote, y_train_smote)
end_time_smote = time.time()

print(f"SMOTE过采样后训练与预测耗时: {end_time_smote - start_time_smote:.4f} 秒")

# 在测试集上预测
rf_pred_smote = rf_model_smote.predict(X_test)

print("\nSMOTE过采样后随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred_smote))
print("SMOTE过采样后随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_smote))

输出：

SMOTE过采样后训练集的形状： (8656, 31) (8656,)
SMOTE过采样后训练与预测耗时: 1.8636 秒

SMOTE过采样后随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.77      0.92      0.84      1059
           1       0.64      0.35      0.45       441

    accuracy                           0.75      1500
   macro avg       0.70      0.63      0.64      1500
weighted avg       0.73      0.75      0.72      1500

SMOTE过采样后随机森林 在测试集上的混淆矩阵：
[[972  87]
 [288 153]]

修改权重

在处理类别不平衡的数据集时，标准机器学习算法（如默认的随机森林）可能会过度偏向多数类，导致对少数类的预测性能很差。为了解决这个问题，常用的策略包括在数据层面（采样）和算法层面进行调整。本文重点讨论两种算法层面的方法：修改类别权重和修改分类阈值。

修改类别权重

核心思想：为不同类别的错误分类分配不同的“代价”或“权重”。通常，将少数类样本错分为多数类的代价设置得远高于反过来的情况。
作用机制：修改模型的**损失函数**。当模型错误分类一个具有高权重的少数类样本时，会受到更大的惩罚（更高的损失值）。
目的： 迫使学习算法在优化参数时更加关注少数类，努力学习到一个能够更好地区分少数类的决策边界。它试图从根本上让模型“学会”识别少数类。
影响：直接改变模型的**参数学习过程**和最终学到的**模型本身**。

举个例子

医疗诊断：
- 健康人（多） vs 癌症患者（少）
- 漏诊癌症后果严重 → 给癌症样本高权重（如10倍）
效果：模型宁可误判健康人，也要尽量找出所有癌症患者。

输入：

import numpy as np # 引入 numpy 用于计算平均值等
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold, cross_validate # 引入分层 K 折和交叉验证工具
from sklearn.metrics import make_scorer, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
import time
import warnings
warnings.filterwarnings("ignore")

# 假设 X_train, y_train, X_test, y_test 已经准备好
# X_train, y_train 用于交叉验证和最终模型训练
# X_test, y_test 用于最终评估

# --- 1. 默认参数的随机森林 (原始代码，作为对比基准) ---
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
start_time = time.time()
rf_model_default = RandomForestClassifier(random_state=42)
rf_model_default.fit(X_train, y_train)
rf_pred_default = rf_model_default.predict(X_test)
end_time = time.time()
print(f"默认模型训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred_default))
print("默认随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_default))
print("-" * 50)


# --- 2. 带权重的随机森林 + 交叉验证 (在训练集上进行CV) ---
print("--- 2. 带权重随机森林 + 交叉验证 (在训练集上进行) ---")

# 确定少数类标签 (非常重要！)
# 假设是二分类问题，我们需要知道哪个是少数类标签才能正确解读 recall, precision, f1
# 例如，如果标签是 0 和 1，可以这样查看：
counts = np.bincount(y_train)
minority_label = np.argmin(counts) # 找到计数最少的类别的标签
majority_label = np.argmax(counts)
print(f"训练集中各类别数量: {counts}")
print(f"少数类标签: {minority_label}, 多数类标签: {majority_label}")
# !!下面的 scorer 将使用这个 minority_label !!

# 定义带权重的模型
rf_model_weighted = RandomForestClassifier(
    random_state=42,
    class_weight='balanced'  # 关键：自动根据类别频率调整权重
    # class_weight={minority_label: 10, majority_label: 1} # 或者可以手动设置权重字典
)

# 设置交叉验证策略 (使用 StratifiedKFold 保证每折类别比例相似)
cv_strategy = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) # 5折交叉验证

# 定义用于交叉验证的评估指标
# 特别关注少数类的指标，使用 make_scorer 指定 pos_label
# 注意：如果你的少数类标签不是 1，需要修改 pos_label
scoring = {
    'accuracy': 'accuracy',
    'precision_minority': make_scorer(precision_score, pos_label=minority_label, zero_division=0),
    'recall_minority': make_scorer(recall_score, pos_label=minority_label),
    'f1_minority': make_scorer(f1_score, pos_label=minority_label)
}

print(f"开始进行 {cv_strategy.get_n_splits()} 折交叉验证...")
start_time_cv = time.time()

# 执行交叉验证 (在 X_train, y_train 上进行)
# cross_validate 会自动完成训练和评估过程
cv_results = cross_validate(
    estimator=rf_model_weighted,
    X=X_train,
    y=y_train,
    cv=cv_strategy,
    scoring=scoring,
    n_jobs=-1, # 使用所有可用的 CPU 核心
    return_train_score=False # 通常我们更关心测试折的得分
)

end_time_cv = time.time()
print(f"交叉验证耗时: {end_time_cv - start_time_cv:.4f} 秒")

# 打印交叉验证结果的平均值
print("\n带权重随机森林 交叉验证平均性能 (基于训练集划分)：")
for metric_name, scores in cv_results.items():
    if metric_name.startswith('test_'): # 我们关心的是在验证折上的表现
         # 提取指标名称（去掉 'test_' 前缀）
        clean_metric_name = metric_name.split('test_')[1]
        print(f"  平均 {clean_metric_name}: {np.mean(scores):.4f} (+/- {np.std(scores):.4f})")

print("-" * 50)


# --- 3. 使用权重训练最终模型，并在测试集上评估 ---
print("--- 3. 训练最终的带权重模型 (整个训练集) 并在测试集上评估 ---")
start_time_final = time.time()
# 使用与交叉验证中相同的设置来训练最终模型
rf_model_weighted_final = RandomForestClassifier(
    random_state=42,
    class_weight='balanced'
)
rf_model_weighted_final.fit(X_train, y_train) # 在整个训练集上训练
rf_pred_weighted = rf_model_weighted_final.predict(X_test) # 在测试集上预测
end_time_final = time.time()

print(f"最终带权重模型训练与预测耗时: {end_time_final - start_time_final:.4f} 秒")
print("\n带权重随机森林 在测试集上的分类报告：")
# 确保 classification_report 也关注少数类 (可以通过 target_names 参数指定标签名称)
# 或者直接查看报告中少数类标签对应的行
print(classification_report(y_test, rf_pred_weighted)) # , target_names=[f'Class {majority_label}', f'Class {minority_label}'] 如果需要指定名称
print("带权重随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_weighted))
print("-" * 50)

# 对比总结 (简单示例)
print("性能对比 (测试集上的少数类召回率 Recall):")
recall_default = recall_score(y_test, rf_pred_default, pos_label=minority_label)
recall_weighted = recall_score(y_test, rf_pred_weighted, pos_label=minority_label)
print(f"  默认模型: {recall_default:.4f}")
print(f"  带权重模型: {recall_weighted:.4f}")

输出：

--- 1. 默认参数随机森林 (训练集 -> 测试集) ---
默认模型训练与预测耗时: 1.3977 秒

默认随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.77      0.97      0.86      1059
           1       0.79      0.30      0.43       441

    accuracy                           0.77      1500
   macro avg       0.78      0.63      0.64      1500
weighted avg       0.77      0.77      0.73      1500

默认随机森林 在测试集上的混淆矩阵：
[[1023   36]
 [ 309  132]]
--------------------------------------------------
--- 2. 带权重随机森林 + 交叉验证 (在训练集上进行) ---
训练集中各类别数量: [4328 1672]
少数类标签: 1, 多数类标签: 0
开始进行 5 折交叉验证...
交叉验证耗时: 3.0567 秒

带权重随机森林 交叉验证平均性能 (基于训练集划分)：
  平均 accuracy: 0.7798 (+/- 0.0085)
  平均 precision_minority: 0.8291 (+/- 0.0182)
  平均 recall_minority: 0.2650 (+/- 0.0400)
  平均 f1_minority: 0.3998 (+/- 0.0455)
--------------------------------------------------
--- 3. 训练最终的带权重模型 (整个训练集) 并在测试集上评估 ---
最终带权重模型训练与预测耗时: 1.2516 秒

带权重随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.76      0.97      0.86      1059
           1       0.81      0.27      0.41       441

    accuracy                           0.77      1500
   macro avg       0.78      0.62      0.63      1500
weighted avg       0.78      0.77      0.72      1500

带权重随机森林 在测试集上的混淆矩阵：
[[1030   29]
 [ 320  121]]
--------------------------------------------------
性能对比 (测试集上的少数类召回率 Recall):
  默认模型: 0.2993
  带权重模型: 0.2744

修改分类阈值

核心思想：改变将模型输出的概率（或得分）映射到最终类别标签的门槛。
作用机制：模型通常输出一个样本属于正类（通常设为少数类）的概率 `p`。默认情况下，如果 `p > 0.5`，则预测为正类。修改阈值意味着改变这个 `0.5`，例如，如果要求更高的召回率，可以将阈值降低（如 `p > 0.3` 就预测为正类）。
目的：在不改变已训练好的模型的情况下，根据业务需求调整精确率（Precision）和召回率（Recall）之间的权衡。通常用于提高少数类的召回率（但可能会牺牲精确率）。
影响：不改变模型学到的参数或决策边界本身，只改变如何解释模型的输出。
优点：
实现简单，无需重新训练模型。
非常直观，可以直接在 PR 曲线或 ROC 曲线上选择操作点。
适用于任何输出概率或分数的模型。
缺点：
治标不治本。如果模型本身就没学好如何区分少数类（概率输出普遍很低），单纯降低阈值可能效果有限或导致大量误报（低精确率）。

输入：

import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold, cross_validate
from sklearn.metrics import make_scorer, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
import time
import warnings
warnings.filterwarnings("ignore")

# --- 1. 默认参数的随机森林 (原始代码，作为对比基准) ---
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
start_time = time.time()
rf_model_default = RandomForestClassifier(random_state=42)
rf_model_default.fit(X_train, y_train)
rf_pred_default = rf_model_default.predict(X_test)
end_time = time.time()
print(f"默认模型训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred_default))
print("默认随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_default))
print("-" * 50)

# --- 2. 阈值调整的随机森林 + 交叉验证 (在训练集上进行CV) ---
print("--- 2. 阈值调整随机森林 + 交叉验证 (在训练集上进行) ---")

# 确定少数类标签
counts = np.bincount(y_train)
minority_label = np.argmin(counts)
majority_label = np.argmax(counts)
print(f"训练集中各类别数量: {counts}")
print(f"少数类标签: {minority_label}, 多数类标签: {majority_label}")

# 定义要测试的阈值列表
thresholds = [0.3, 0.4, 0.5, 0.6]  # 可根据业务需求调整

# 定义评估函数（使用概率和阈值进行预测）
def custom_predict(estimator, X, threshold):
    proba = estimator.predict_proba(X)[:, 1]  # 获取正类概率
    return (proba >= threshold).astype(int)

# 设置交叉验证策略
cv_strategy = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# 定义评估指标
scoring = {
    'accuracy': 'accuracy',
    'precision_minority': make_scorer(precision_score, pos_label=minority_label, zero_division=0),
    'recall_minority': make_scorer(recall_score, pos_label=minority_label),
    'f1_minority': make_scorer(f1_score, pos_label=minority_label)
}

# 初始化模型（使用默认参数）
rf_model = RandomForestClassifier(random_state=42)

print(f"开始进行 {cv_strategy.get_n_splits()} 折交叉验证...")
start_time_cv = time.time()

# 存储各阈值的最佳得分
threshold_results = []

for threshold in thresholds:
    print(f"\n测试阈值: {threshold:.2f}")
    
    # 自定义评分函数（使用当前阈值）
    def scorer(estimator, X, y):
        y_pred = custom_predict(estimator, X, threshold)
        return {
            'accuracy': accuracy_score(y, y_pred),
            'precision': precision_score(y, y_pred, pos_label=minority_label, zero_division=0),
            'recall': recall_score(y, y_pred, pos_label=minority_label),
            'f1': f1_score(y, y_pred, pos_label=minority_label)
        }
    
    # 执行交叉验证
    cv_results = cross_validate(
        estimator=rf_model,
        X=X_train,
        y=y_train,
        cv=cv_strategy,
        scoring=scoring,
        n_jobs=-1,
        return_train_score=False
    )
    
    # 存储结果
    threshold_results.append({
        'threshold': threshold,
        'recall_mean': np.mean(cv_results['test_recall_minority']),
        'precision_mean': np.mean(cv_results['test_precision_minority']),
        'f1_mean': np.mean(cv_results['test_f1_minority'])
    })
    
    # 打印当前阈值结果
    print("交叉验证平均得分:")
    for metric in ['accuracy', 'precision_minority', 'recall_minority', 'f1_minority']:
        scores = cv_results[f'test_{metric}']
        print(f"  {metric}: {np.mean(scores):.4f} (±{np.std(scores):.4f})")

end_time_cv = time.time()
print(f"\n交叉验证总耗时: {end_time_cv - start_time_cv:.4f} 秒")

# 选择最佳阈值（基于F1分数）
best_threshold = max(threshold_results, key=lambda x: x['f1_mean'])['threshold']
print(f"\n最佳阈值选择: {best_threshold:.2f} (基于F1分数)")

print("-" * 50)

# --- 3. 使用最佳阈值训练最终模型，并在测试集上评估 ---
print("--- 3. 训练最终模型并使用最佳阈值预测 (整个训练集) ---")
start_time_final = time.time()

# 训练模型（使用默认参数）
rf_model_final = RandomForestClassifier(random_state=42)
rf_model_final.fit(X_train, y_train)

# 使用最佳阈值进行预测
prob_weighted = rf_model_final.predict_proba(X_test)[:, 1]
rf_pred_threshold = (prob_weighted >= best_threshold).astype(int)

end_time_final = time.time()
print(f"最终模型训练与预测耗时: {end_time_final - start_time_final:.4f} 秒")

print("\n阈值调整随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred_threshold))
print("阈值调整随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_threshold))
print("-" * 50)

# 对比总结
print("性能对比 (测试集上的少数类召回率 Recall):")
recall_default = recall_score(y_test, rf_pred_default, pos_label=minority_label)
recall_threshold = recall_score(y_test, rf_pred_threshold, pos_label=minority_label)
print(f"  默认模型(阈值0.5): {recall_default:.4f}")
print(f"  阈值调整模型(阈值{best_threshold:.2f}): {recall_threshold:.4f}")

输出：

--- 1. 默认参数随机森林 (训练集 -> 测试集) ---
默认模型训练与预测耗时: 2.3663 秒

默认随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.77      0.97      0.86      1059
           1       0.79      0.30      0.43       441

    accuracy                           0.77      1500
   macro avg       0.78      0.63      0.64      1500
weighted avg       0.77      0.77      0.73      1500

默认随机森林 在测试集上的混淆矩阵：
[[1023   36]
 [ 309  132]]
--------------------------------------------------
--- 2. 阈值调整随机森林 + 交叉验证 (在训练集上进行) ---
训练集中各类别数量: [4328 1672]
少数类标签: 1, 多数类标签: 0
开始进行 5 折交叉验证...

测试阈值: 0.30
交叉验证平均得分:
  accuracy: 0.7775 (±0.0084)
  precision_minority: 0.7864 (±0.0253)
  recall_minority: 0.2782 (±0.0453)
  f1_minority: 0.4085 (±0.0477)

测试阈值: 0.40
交叉验证平均得分:
  accuracy: 0.7775 (±0.0084)
  precision_minority: 0.7864 (±0.0253)
  recall_minority: 0.2782 (±0.0453)
  f1_minority: 0.4085 (±0.0477)

测试阈值: 0.50
交叉验证平均得分:
  accuracy: 0.7775 (±0.0084)
  precision_minority: 0.7864 (±0.0253)
  recall_minority: 0.2782 (±0.0453)
  f1_minority: 0.4085 (±0.0477)

测试阈值: 0.60
交叉验证平均得分:
  accuracy: 0.7775 (±0.0084)
  precision_minority: 0.7864 (±0.0253)
  recall_minority: 0.2782 (±0.0453)
  f1_minority: 0.4085 (±0.0477)

交叉验证总耗时: 34.5586 秒

最佳阈值选择: 0.30 (基于F1分数)
--------------------------------------------------
--- 3. 训练最终模型并使用最佳阈值预测 (整个训练集) ---
最终模型训练与预测耗时: 1.4368 秒

阈值调整随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.82      0.69      0.75      1059
           1       0.46      0.64      0.53       441

    accuracy                           0.67      1500
   macro avg       0.64      0.66      0.64      1500
weighted avg       0.71      0.67      0.69      1500

阈值调整随机森林 在测试集上的混淆矩阵：
[[729 330]
 [160 281]]
--------------------------------------------------
性能对比 (测试集上的少数类召回率 Recall):
  默认模型(阈值0.5): 0.2993
  阈值调整模型(阈值0.30): 0.6372

小总结

输出结果不尽人意，可能是没有具体到位，也有可能是方法不适合数据，但是调参方法是值得学习和应用的。

疏锦行学长的实践建议

1. 评估指标先行：明确你的目标，使用适合不平衡数据的指标（Recall, F1-Score, AUC-PR, Balanced Accuracy, MCC）来评估模型。
2. 优先尝试根本方法：通常建议首先尝试修改权重 (`class_weight='balanced'`)或数据采样方法 (如 SMOTE)，因为它们试图从源头改善模型学习。
3. 交叉验证评估：在使用 `class_weight` 或采样方法时，务必使用分层交叉验证 (Stratified K-Fold)来获得对模型性能的可靠估计。
4. 阈值调整作为补充：修改阈值可以作为一种补充手段或最后的微调。即使使用了权重调整，有时仍需根据具体的业务需求（如必须达到某个召回率水平）来调整阈值，找到最佳的操作点。
5. 组合策略：有时结合多种方法（如 SMOTE + `class_weight`）可能会产生更好的结果。

总之，修改权重旨在训练一个“更好”的模型，而修改阈值是在一个“已有”模型上调整其表现。理解它们的差异有助于你选择更合适的策略来应对不平衡数据集的挑战。

你可能感兴趣的:(Python打卡60天,python,开发语言)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
自律打卡第四天：比昨天进步一点点花儿的念想
今天新闻我们县城又确诊了一例，截止目前已经确诊的三例了，打开，看了一篇简友写的武汉的真实情况，有病住不了院，还没等到床位已经去世的消息，心里更加的难受，武汉尚且这样，如果是我们这没有高速没有火车的十八线的小县城发生这种情况，那情况将是更加的不堪设想，不敢想，唯有祈求灾难早点快去，平安才是最大的福气。突然觉得我的自律打卡，比昨天进步一点点。更希望疫情战争每一天都要比昨天好一点，希望一觉醒来听到的是好
我不懂什么是爱，但我给你全部我拥有的香尧
因为怕黑，所以愿意陪伴在夜中行走的人，给他一点点的安全感。因为渴望温柔与爱，所以愿意为别的孩子付出爱与温柔。因为曾遭受侮辱和伤害，所以不以同样的方式施于其他人。如果你向别人出之以利刃，对方还了你爱与包容，真的不要感激他，真的不要赞美他。每一个被人伤害过的人心里都留下了一颗仇恨的种子，他也会想要有一天以眼还眼，以牙还牙。但他未让那颗种子生根发芽，他用一把心剑又一次刺向他自己，用他血荐仇恨，开出一朵温
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
日更50天有什么收益？星湾二宝
坚持在平台上日更50天了，平台也为我生成了日更50天徽章，小开心一下这份坚持。日更50天徽章那坚持50天都有哪些收益呢？收益一，就是最直观的那些钻和贝，我这边确实不太高，但是这些贝足够支撑我保持会员的资格，能够在发文的时候帮助友友们去除广告，方便阅读。钻和贝收益二，文章的收获，日更50天，坚持写作3.7万文字，书写的文字也从开始的流水账/碎碎念逐渐加入自己的思考和观点。以前，一个念头会一晃而过，如
中原焦点团队吴瑕瑜焦点解决初级第18期坚持分享第695天 2021年12月6号卿安
中原焦点团队吴瑕瑜焦点解决初级第18期坚持分享第695天2021年12月6号相信相信的力量。很多时候我们忽视了相信的力量，当看到孩子遇到困难、挫折，或者可能犯错时，我们急于去帮忙，这至少部分暗含不相信孩子有能力自己解决，“等不及”，少了对孩子有权决定是否需要帮忙的尊重，缺乏界限，容易引起冲突，并影响孩子的独立能力。对孩子的成长，很多时候，家长的相信比具体帮助更重要。
第八章竟然是他橥橥
十天之后，京城已在眼前。沐子莹总算松了口，天子脚下，相对安全。马车在城门外停下，杨嬷嬷掀了帘子往外望去，哀叹了一声。沐子莹拍拍身上的灰尘安慰她说：“嬷嬷，别怕，马上就要到府了，咱们可得把那车夫的事跟主母讲一讲，让主她这个当家的给我们作主才是。”嬷嬷却连连摆手，“不可啊小姐，咱们能平安回府就是幸事，车夫的事……就说他摔死在半路，其它的，莫要再提了吧。”“若真是车夫生事那算是万幸了，只怕容不得我们的，
《路远连着天》第二章在路上 7 亚宁
大路镇的街道两旁尽是店铺，气派者是红门柱子雕花门窗，一般则多为布匹小百货店，还有几家门面朝外的车马大店，和一家颇有气势的典当铺。街上来往人还真不少，有挑担叫卖水果的，有背篓子路过的，还有衣冠楚楚，悠哉悠哉，甩着双手散步的有钱爷。耿六想着先寻姑妈家，还是先到兵营看那几个土匪呢？也只是一转念，他选择了后者，跟在几个闲人后，就来到了在镇外山头上曾看到过的那处飘着晴天白日旗的兵营门外。这里，围观的人乱哄哄
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
为他找了一百个理由顾安安呐
我曾经试图从蛛丝马迹里找出理由，去告诉自己你很爱我。相信很多恋爱过的人都有这种经历：他爱我吗？朋友小邹是大家公认的那种乐观开朗的女孩。前一段时间却钻起了牛角尖，她开始变得敏感多疑，而这些与她之前的性格完全判若两人。她现男友得不到我们的认可，但是她爱他，总是从蛛丝马迹里找证据。他一天不回他消息，她就告诉自己他在忙；他和别的女生有说有笑，她问他，只要他说是同学让她不要发神经，她就愿意傻傻的相信他；他对
冯玙哲诗歌。你的微笑。冯玙哲
图片发自App黑夜的河流流过我的臂弯静谧的爱情无声无息的穿行关于一首诗的故事，没有苍凉说好的相聚，总会有日子分分离离总要团圆谁在你的玻璃上写下名字诗句上泛滥着生与死长久的相依依靠着你的承诺，才站立着望见远方火热的太阳，优雅的月亮明媚的笑靥背后藏匿的悲伤总让人疼痛一天过去，寺庙的钟声没有响起一束束鲜花灿烂，姑娘的背囊里有猫古老的瓷器，破烂的木头，多肉花盆不经意的就触碰了爱人的眼泪于是我匍匐在路上，夜
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
【焦点咨询的“无为”】邹庆会，持续分享第690天，2020年1月23日邹庆会
焦点课堂上，刘老师强调，焦点咨询师要“无为”，当时我就很困惑：我们“无为”，我们什么都不做，那来访者找我们做什么呢？那我们又怎么样来引领来访者呢？又怎么样让来访者在咨询当中有更多的收获呢？带着这个困惑，我逐渐在咨询中，包括在陪伴儿子的过程中，试着慢慢地放下期待、忘掉技术，寻找“无为”的感觉，寻找“无为”的痕迹，以及“无为”之后的一些效果的呈现。也慢慢的悟出一些自己的感受和体会。就像《道德经》中所说
D2早课与活力链接亲爱的lingling
宇宙法则是：关注什么，什么就会变大。所以时刻关注自己在想什么，听什么，看什么！感恩今天早晨醒来的第一个意识是，真好，美好的一天开始了，我要越来越漂亮。起床做感恩冥想，呼吸法，喝一杯白开水，贴牛奶面膜。谢谢真我，感觉真好！感恩今天芳哥哥做的爱心早餐，给我煎了鸡蛋，谢谢芳哥的付出。谢谢！感恩我能够越来越清晰自己要做什么，越来越清楚知道自己想要的是什么，更加宁静与喜悦。今天早晨我听到我的高级智慧的声音，
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
“不经一番寒彻骨，哪得梅花扑鼻香” 蹦吧卡拉拉
沉默是一种历练，一种彻悟，一种对生活的宽容与超脱。掌握了沉默拥有的力量，就能让我们适应变化莫测的生活，让我们在复杂的环境里学会自我保护，并在无声的世界里实现真正的自我超越。在等待中积蓄力量生活中，我们几乎每一天都在等待：小孩子哭哭啼啼，那是在等待着父母回家陪他一起玩耍；老人整日望眼欲穿，那是等待着远方的孩子早日回家团聚；怀揣创业梦的年轻人整日风餐露宿，食不果腹，那是在等待着一飞冲天的机遇实现自己的
今日随笔小小林_005b
2019.10.21.周一晴全职第436天50+21/day118天【皮皮第118天】1.昨晚闹腾到一点多才安稳入睡，一个晚上一直哭哭闹闹(´;︵;`)，没睡一会儿就会惊吓大哭(´;︵;`)，一直抱着哄，似乎抱着才更加有安全感才能睡得更好。小胖子越来越重，我的手和腰部有些承受不了，经常腰酸痛到直不起来，好在有黑先生和啊影子下班后有空了就帮我抱一会儿。2.今日排便三次，一次偏向绿色，一两次金黄色。3
漫步，跳出藩篱张巧金沙
最近的教学，倍感不爽。一为这国庆之假，把这课上得支离破碎的。放假前，上了四天课，但我却只上了三天，9月30日，我工作室在搞活动，全天的活动，课当然未能上。10月8日学生回校，上了两天课，学生又放回家了。就觉得学生刚有点状态，又回去逍遥去了。感觉吧，教学内容也不敢大胆甩开膀子去教学，所以呀，这教学内容还真上不走，而且学生学下来效果特差。这不，国庆放假前的一个周，测试了两次，均为第一单元，是自考试以来
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
老公的女朋友把我打成小三后，我杀疯了周昊净许青青小说完结推荐_最热门小说老公的女朋友把我打成小三后，我杀疯了周昊净许青青小富江呀
《老公的女朋友把我打成小三后，我杀疯了》主角：周昊净许青青简介：只因跟老公说了几句情话，就被老公的‘女朋友’当成小三。她带着一群自诩为“惩治小三联盟”的网络判官冲进了我家。“怎么，有脸当小三，没脸承认？”“从你当小三的那一刻起，就该想到会有被人收拾的一天！”“我们网络判官专治道德败坏的贱人！”这群人一边疯狂大骂，一边愤怒打砸。看着狼藉不堪的家，我面色平静地给公司法务部发去消息。“按照婚前协议，拟一
2021-10-26 躺平日记：18.《陀枪师姐》春迟馆
写了一天字，明天《道德经》就可以临完了。阳台的玻璃也擦完了，明天再收拾收拾花盆什么的，阳台就基本告一段落。不管干活还是写字，总是用老剧做背景声音。因为看过，所以有一眼没一眼都无所谓，主要作用一是可以计时，一是提醒自己每集播完都起身活动活动。这几天放的是《陀枪师姐》。看朱素娥一步步从一个生活、事业陷入困境的绝望主妇，通过努力，不断提升自己，成长为优秀的配枪女警，真是很励志。
斗罗大陆：没有魂环的唐三紫极魔瞳加鬼影迷踪战力有多强嘚瑟_a3a5
自从唐三穿越到斗罗大陆以后，由于修炼体系和前世的不同，虽然玄天功也是勤修不辍可是无论怎样修炼都毫无进展，总是难以突破瓶颈，而紫极魔瞳和鬼影迷踪也因为内力的限制发挥不出其真正的威力。后来通过在素云涛那里了解了一些斗罗大陆修炼的方法和体系之后，唐三才知道魂力也就是他前世的内力需要突破的话需要附加魂环以后才可以进入下一阶段的修炼。而在小刚老师详细介绍和针对唐三的具体情况分析指导以后，唐三也不再迷茫决定重
第一次不在家过年东坡观史
每个人都有无数次的第一次，每个第一次的感觉都是新鲜与紧张的。今年是我第一次不在家过年，因为提前跟父母商量了，他们也表示理解。自从考了一个导游证，我的人生就丰富起来。为了边带团边玩遍世界，五年来我吃了非常多的苦，经历了许多常人无法想象的场面。爬山涉水，起早贪黑，风吹热晒，饥饿困苦，这些都是常事。美好的旅行，正一天天变成庸俗不堪的工作。最近团少多了，人们的出行方式有了变化。寒假里，遇到这个过年团心中窃
父母拼尽一切孩子却不领情？一定要学会这一招四叶草_add9
中原焦点团队李金梅坚持分享第601天2021.5.28中国的父母是世界上最累的父母，从孩子出生，他们就开始了操劳的父母生涯：孩子年幼时，照顾他的吃喝拉撒；孩子上学后，忙完工作回到家还要辅导孩子的功课，辅导不了要报辅导班；孩子长大成人了，父母仍然要操心孩子的工作和婚姻；孩子结婚的房子，父母帮着买；孩子生了孩子，父母帮着带……父母的大半生都把孩子排在自己前面，一切为了孩子，最后却往往落不着好：孩子要么
中原焦点团队坚持原创分享第 1172天金JJ
信阳案例督导：在学生出现危机时，学校启动心理应急程序，一位心理老师安抚个案的同时，其他心理老师给班级同学进行团体心理辅导，学校方面马上通知家长前来学校。学校危机干预应急流程的成熟，能有效降低个案的自杀风险。个案不愿谈及家庭及自己自杀行为等问题时，用沙盘、玩具等分散注意力，谈论他感兴趣的话题，老师温和的态度，关切的言语，个案的情绪逐渐平复。从个案自己说的，流露的非言语，家长、老师、同学、以往的记录，
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(