circle_yy

数据挖掘实战一：输入预测分类

# 导入第三方包
import pandas as pd
import numpy as np
import seaborn as sns

# 数据读取
income = pd.read_excel(r'./income.xlsx')
income.head()
#了解数据的大体结构。输出前几行

	age	workclass	fnlwgt	education	education-num	marital-status	occupation	relationship	race	sex	capital-gain	hours-per-week	native-country	income
0	39	State-gov	77516	Bachelors	13	Never-married	Adm-clerical	Not-in-family	White	Male	2174	40	United-States	<=50K
1	50	Self-emp-not-inc	83311	Bachelors	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	0	13	United-States	<=50K
2	38	Private	215646	HS-grad	9	Divorced	Handlers-cleaners	Not-in-family	White	Male	0	40	United-States	<=50K
3	53	Private	234721	11th	7	Married-civ-spouse	Handlers-cleaners	Husband	Black	Male	0	40	United-States	<=50K
4	28	Private	338409	Bachelors	13	Married-civ-spouse	Prof-specialty	Wife	Black	Female	0	40	Cuba	<=50K

# 查看数据集是否存在缺失值
income.apply(lambda x:np.sum(x.isnull()))
##info()用来查看数据是否有缺失值，以及数据类型。
income.info()
### 3万条数据


RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
age               32561 non-null int64
workclass         30725 non-null object
fnlwgt            32561 non-null int64
education         32561 non-null object
education-num     32561 non-null int64
marital-status    32561 non-null object
occupation        30718 non-null object
relationship      32561 non-null object
race              32561 non-null object
sex               32561 non-null object
capital-gain      32561 non-null int64
capital-loss      32561 non-null int64
hours-per-week    32561 non-null int64
native-country    31978 non-null object
income            32561 non-null object
dtypes: int64(6), object(9)
memory usage: 3.7+ MB

从上可以看出,存在缺失值，workclass，occupation，native-country ,缺失值都是类别值，因此用众数进行填充

# 缺失值处理
income.fillna(value = {'workclass':income.workclass.mode()[0],
                              'occupation':income.occupation.mode()[0],
                              'native-country':income['native-country'].mode()[0]}, inplace = True)
income.head()

	age	workclass	fnlwgt	education	education-num	marital-status	occupation	relationship	race	sex	capital-gain	hours-per-week	native-country	income
0	39	State-gov	77516	Bachelors	13	Never-married	Adm-clerical	Not-in-family	White	Male	2174	40	United-States	<=50K
1	50	Self-emp-not-inc	83311	Bachelors	13	Married-civ-spouse	Exec-managerial	Husband	White	Male	0	13	United-States	<=50K
2	38	Private	215646	HS-grad	9	Divorced	Handlers-cleaners	Not-in-family	White	Male	0	40	United-States	<=50K
3	53	Private	234721	11th	7	Married-civ-spouse	Handlers-cleaners	Husband	Black	Male	0	40	United-States	<=50K
4	28	Private	338409	Bachelors	13	Married-civ-spouse	Prof-specialty	Wife	Black	Female	0	40	Cuba	<=50K

# 数据的探索性分析
income.describe()

#了解数据的大致分布，但是这种分布不包括字符串类型

	age	fnlwgt	education-num	capital-gain	capital-loss	hours-per-week
count	32561.000000	3.256100e+04	32561.000000	32561.000000	32561.000000	32561.000000
mean	38.581647	1.897784e+05	10.080679	1077.648844	87.303830	40.437456
std	13.640433	1.055500e+05	2.572720	7385.292085	402.960219	12.347429
min	17.000000	1.228500e+04	1.000000	0.000000	0.000000	1.000000
25%	28.000000	1.178270e+05	9.000000	0.000000	0.000000	40.000000
50%	37.000000	1.783560e+05	10.000000	0.000000	0.000000	40.000000
75%	48.000000	2.370510e+05	12.000000	0.000000	0.000000	45.000000
max	90.000000	1.484705e+06	16.000000	99999.000000	4356.000000	99.000000

income.describe(include =[ 'object'])

	workclass	education	marital-status	occupation	relationship	race	sex	native-country	income
count	32561	32561	32561	32561	32561	32561	32561	32561	32561
unique	8	16	7	14	6	5	2	41	2
top	Private	HS-grad	Married-civ-spouse	Prof-specialty	Husband	White	Male	United-States	<=50K
freq	24532	10501	14976	5983	13193	27816	21790	29753	24720

绘制不同收入水平下的年龄核密度图

# 导入绘图模块
import matplotlib.pyplot as plt
# 设置绘图风格
plt.style.use('ggplot')
# 设置多图形的组合
fig, axes = plt.subplots(2, 1)
# 绘制不同收入水平下的年龄核密度图
income.age[income.income == ' <=50K'].plot(kind = 'kde', label = '<=50K', ax = axes[0], legend = True, linestyle = '-')
income.age[income.income == ' >50K'].plot(kind = 'kde', label = '>50K', ax = axes[0], legend = True, linestyle = '--')
# 绘制不同收入水平下的周工作小时数和密度图
income['hours-per-week'][income.income == ' <=50K'].plot(kind = 'kde', label = '<=50K', ax = axes[1], legend = True, linestyle = '-')
income['hours-per-week'][income.income == ' >50K'].plot(kind = 'kde', label = '>50K', ax = axes[1], legend = True, linestyle = '--')
# 显示图形
plt.show()

构造不同收入水平下各种族人数的数据

# 构造不同收入水平下各种族人数的数据
race = pd.DataFrame(income.groupby(by = ['race','income']).aggregate(np.size).loc[:,'age'])

# race = pd.DataFrame(income.groupby(by = ['race','income']))

print(race)
# 重设行索引
race = race.reset_index()
# 变量重命名
race.rename(columns={'age':'counts'}, inplace=True)
# 排序
race.sort_values(by = ['race','counts'], ascending=False, inplace=True)

# 构造不同收入水平下各家庭关系人数的数据
relationship = pd.DataFrame(income.groupby(by = ['relationship','income']).aggregate(np.size).loc[:,'age'])
relationship = relationship.reset_index()
relationship.rename(columns={'age':'counts'}, inplace=True)
relationship.sort_values(by = ['relationship','counts'], ascending=False, inplace=True)

print(race)
# 设置图框比例，并绘图
plt.figure(figsize=(9,5))
sns.barplot(x="race", y="counts", hue = 'income', data=race)
plt.show()

plt.figure(figsize=(9,5))
sns.barplot(x="relationship", y="counts", hue = 'income', data=relationship)
plt.show()

                              age
race                income       
 Amer-Indian-Eskimo  <=50K    275
                     >50K      36
 Asian-Pac-Islander  <=50K    763
                     >50K     276
 Black               <=50K   2737
                     >50K     387
 Other               <=50K    246
                     >50K      25
 White               <=50K  20699
                     >50K    7117
                  race  income  counts
8                White   <=50K   20699
9                White    >50K    7117
6                Other   <=50K     246
7                Other    >50K      25
4                Black   <=50K    2737
5                Black    >50K     387
2   Asian-Pac-Islander   <=50K     763
3   Asian-Pac-Islander    >50K     276
0   Amer-Indian-Eskimo   <=50K     275
1   Amer-Indian-Eskimo    >50K      36

# 离散变量的重编码,重编码是映射为了数字类型
for feature in income.columns:
    if income[feature].dtype == 'object':
        income[feature] = pd.Categorical(income[feature]).codes
income.head()

	age	workclass	fnlwgt	education	education-num	marital-status	occupation	relationship	race	sex	capital-gain	hours-per-week	native-country
0	39	6	77516	9	13	4	0	1	4	1	2174	40	38
1	50	5	83311	9	13	2	3	0	4	1	0	13	38
2	38	3	215646	11	9	0	5	1	4	1	0	40	38
3	53	3	234721	1	7	2	5	0	2	1	0	40	38
4	28	3	338409	9	13	2	9	5	2	0	0	40	4

# 删除变量
income.drop(['education','fnlwgt'], axis = 1, inplace = True)
income.head()

	age	workclass	education-num	marital-status	occupation	relationship	race	sex	capital-gain	hours-per-week	native-country
0	39	6	13	4	0	1	4	1	2174	40	38
1	50	5	13	2	3	0	4	1	0	13	38
2	38	3	9	0	5	1	4	1	0	40	38
3	53	3	7	2	5	0	2	1	0	40	38
4	28	3	13	2	9	5	2	0	0	40	4

# 数据拆分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(income.loc[:,'age':'native-country'], 
                                                    income['income'], train_size = 0.75, 
                                                    random_state = 1234)
print('训练数据集共有%d条观测' %X_train.shape[0])
print('测试数据集共有%d条观测' %X_test.shape[0])

训练数据集共有24420条观测
测试数据集共有8141条观测

# 导入k近邻模型的类
from sklearn.neighbors import KNeighborsClassifier
# 构建k近邻模型
kn = KNeighborsClassifier()
kn.fit(X_train, y_train)
print(kn)

# 预测测试集
kn_pred = kn.predict(X_test)
print(pd.crosstab(kn_pred, y_test))

# 模型得分
print('模型在训练集上的准确率%f' %kn.score(X_train,y_train))
print('模型在测试集上的准确率%f' %kn.score(X_test,y_test))

# # 导入模型评估模块
from sklearn import metrics

# 计算ROC曲线的x轴和y轴数据
fpr, tpr, _ = metrics.roc_curve(y_test,  kn.predict_proba(X_test)[:,1])
# 绘制ROC曲线
plt.plot(fpr, tpr, linestyle = 'solid', color = 'red')
# 添加阴影
plt.stackplot(fpr, tpr, color = 'steelblue')
# 绘制参考线
plt.plot([0,1],[0,1], linestyle = 'dashed', color = 'black')
# 往图中添加文本
plt.text(0.6,0.4,'AUC=%.3f' % metrics.auc(fpr,tpr), fontdict = dict(size = 18))
plt.show()

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')
income     0     1
row_0             
0       5637   723
1        589  1192
模型在训练集上的准确率0.890500
模型在测试集上的准确率0.838840

# 导入GBDT模型的类
from sklearn.ensemble import GradientBoostingClassifier
# 构建GBDT模型
gbdt = GradientBoostingClassifier()
gbdt.fit(X_train, y_train)
print(gbdt)

# 预测测试集
gbdt_pred = gbdt.predict(X_test)
print(pd.crosstab(gbdt_pred, y_test))

# 模型得分
print('模型在训练集上的准确率%f' %gbdt.score(X_train,y_train))
print('模型在测试集上的准确率%f' %gbdt.score(X_test,y_test))

# 绘制ROC曲线
fpr, tpr, _ = metrics.roc_curve(y_test, gbdt.predict_proba(X_test)[:,1])
plt.plot(fpr, tpr, linestyle = 'solid', color = 'red')
plt.stackplot(fpr, tpr, color = 'steelblue')
plt.plot([0,1],[0,1], linestyle = 'dashed', color = 'black')
plt.text(0.6,0.4,'AUC=%.3f' % metrics.auc(fpr,tpr), fontdict = dict(size = 18))
plt.show()

GradientBoostingClassifier(criterion='friedman_mse', init=None,
                           learning_rate=0.1, loss='deviance', max_depth=3,
                           max_features=None, max_leaf_nodes=None,
                           min_impurity_decrease=0.0, min_impurity_split=None,
                           min_samples_leaf=1, min_samples_split=2,
                           min_weight_fraction_leaf=0.0, n_estimators=100,
                           n_iter_no_change=None, presort='auto',
                           random_state=None, subsample=1.0, tol=0.0001,
                           validation_fraction=0.1, verbose=0,
                           warm_start=False)
income     0     1
row_0             
0       5862   784
1        364  1131
模型在训练集上的准确率0.869451
模型在测试集上的准确率0.858985

# K近邻模型的网格搜索法
# 导入网格搜索法的函数
from sklearn.model_selection import GridSearchCV
# 选择不同的参数
k_options = list(range(1,12))
parameters = {'n_neighbors':k_options}
# 搜索不同的K值
grid_kn = GridSearchCV(estimator = KNeighborsClassifier(), param_grid = parameters, cv=10, scoring='accuracy', verbose=0, n_jobs=2)
grid_kn.fit(X_train, y_train)
print(grid_kn)
# 结果输出
grid_kn.cv_results_, grid_kn.best_params_, grid_kn.best_score_

GridSearchCV(cv=10, error_score='raise-deprecating',
             estimator=KNeighborsClassifier(algorithm='auto', leaf_size=30,
                                            metric='minkowski',
                                            metric_params=None, n_jobs=None,
                                            n_neighbors=5, p=2,
                                            weights='uniform'),
             iid='warn', n_jobs=2,
             param_grid={'n_neighbors': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring='accuracy', verbose=0)





({'mean_fit_time': array([0.48654635, 0.46757383, 0.47592268, 0.49453475, 0.47880325,
         0.46707897, 0.48813548, 0.49772682, 0.47156236, 0.46706924,
         0.4772419 ]),
  'std_fit_time': array([0.01297885, 0.0209712 , 0.02072921, 0.0111157 , 0.01790766,
         0.02473602, 0.0163508 , 0.00986862, 0.0199231 , 0.02273718,
         0.03890239]),
  'mean_score_time': array([0.13643334, 0.14554381, 0.14788237, 0.14755256, 0.15460474,
         0.15969527, 0.15761855, 0.15811694, 0.16488271, 0.16624339,
         0.16210868]),
  'std_score_time': array([0.00353061, 0.00297507, 0.00272643, 0.00230722, 0.00245015,
         0.0026701 , 0.0032928 , 0.0039421 , 0.00378626, 0.00273812,
         0.00302414]),
  'param_n_neighbors': masked_array(data=[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
               mask=[False, False, False, False, False, False, False, False,
                     False, False, False],
         fill_value='?',
              dtype=object),
  'params': [{'n_neighbors': 1},
   {'n_neighbors': 2},
   {'n_neighbors': 3},
   {'n_neighbors': 4},
   {'n_neighbors': 5},
   {'n_neighbors': 6},
   {'n_neighbors': 7},
   {'n_neighbors': 8},
   {'n_neighbors': 9},
   {'n_neighbors': 10},
   {'n_neighbors': 11}],
  'split0_test_score': array([0.8014736 , 0.82316824, 0.8215309 , 0.8264429 , 0.82889889,
         0.83381089, 0.83831355, 0.83503889, 0.83831355, 0.84036021,
         0.84322554]),
  'split1_test_score': array([0.81416291, 0.83585755, 0.83544822, 0.84936553, 0.84240688,
         0.8489562 , 0.84527221, 0.84486287, 0.84240688, 0.84568154,
         0.84117888]),
  'split2_test_score': array([0.81866558, 0.83790422, 0.84158821, 0.85550553, 0.84568154,
         0.85345886, 0.84854687, 0.85100287, 0.84731887, 0.84854687,
         0.84690954]),
  'split3_test_score': array([0.81539091, 0.84854687, 0.84936553, 0.84936553, 0.84527221,
         0.84977487, 0.84568154, 0.84609087, 0.84240688, 0.84486287,
         0.8501842 ]),
  'split4_test_score': array([0.80917281, 0.83538084, 0.83701884, 0.84316134, 0.83783784,
         0.84111384, 0.83783784, 0.83824734, 0.83619984, 0.83865684,
         0.83701884]),
  'split5_test_score': array([0.82186732, 0.83783784, 0.83619984, 0.84111384, 0.83210483,
         0.84029484, 0.83415233, 0.83947584, 0.84234234, 0.84520885,
         0.84316134]),
  'split6_test_score': array([0.81810733, 0.8467841 , 0.84104875, 0.85866448, 0.85210979,
         0.86112249, 0.85006145, 0.85784515, 0.85210979, 0.85088079,
         0.84842278]),
  'split7_test_score': array([0.82466202, 0.8455551 , 0.84965178, 0.85538714, 0.85743548,
         0.86071282, 0.85907415, 0.85743548, 0.86112249, 0.85948382,
         0.85538714]),
  'split8_test_score': array([0.8095043 , 0.83408439, 0.8275297 , 0.83490373, 0.83941008,
         0.84309709, 0.83900041, 0.83981975, 0.84104875, 0.84350676,
         0.84391643]),
  'split9_test_score': array([0.81482999, 0.83941008, 0.83039738, 0.83818107, 0.83900041,
         0.84473576, 0.84514543, 0.84596477, 0.8443261 , 0.8467841 ,
         0.84350676]),
  'mean_test_score': array([0.81478296, 0.83845209, 0.83697789, 0.84520885, 0.84201474,
         0.8477068 , 0.84430794, 0.8455774 , 0.84475839, 0.8463964 ,
         0.84529075]),
  'std_test_score': array([0.00641223, 0.00701638, 0.00852103, 0.00976708, 0.00816947,
         0.00842365, 0.00694003, 0.00746034, 0.00688403, 0.00552323,
         0.00487327]),
  'rank_test_score': array([11,  9, 10,  5,  8,  1,  7,  3,  6,  2,  4], dtype=int32)},
 {'n_neighbors': 6},
 0.8477067977067977)

# 预测测试集
grid_kn_pred = grid_kn.predict(X_test)
print(pd.crosstab(grid_kn_pred, y_test))

# 模型得分
print('模型在训练集上的准确率%f' %grid_kn.score(X_train,y_train))
print('模型在测试集上的准确率%f' %grid_kn.score(X_test,y_test))

# 绘制ROC曲线
fpr, tpr, _ = metrics.roc_curve(y_test, grid_kn.predict_proba(X_test)[:,1])
plt.plot(fpr, tpr, linestyle = 'solid', color = 'red')
plt.stackplot(fpr, tpr, color = 'steelblue')
plt.plot([0,1],[0,1], linestyle = 'dashed', color = 'black')
plt.text(0.6,0.4,'AUC=%.3f' % metrics.auc(fpr,tpr), fontdict = dict(size = 18))
plt.show()

income     0     1
row_0             
0       5834   867
1        392  1048
模型在训练集上的准确率0.882473
模型在测试集上的准确率0.845351

##### 一共三万条数据

# GBDT模型的网格搜索法
# 选择不同的参数
learning_rate_options = [0.01,0.05,0.1]
max_depth_options = [3,5,7,9]
n_estimators_options = [100,300,500]
parameters = {'learning_rate':learning_rate_options,'max_depth':max_depth_options,'n_estimators':n_estimators_options}

grid_gbdt = GridSearchCV(estimator = GradientBoostingClassifier(), param_grid = parameters, cv=10, scoring='accuracy', n_jobs=4)
grid_gbdt.fit(X_train, y_train)

# 结果输出
grid_gbdt.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             , grid_gbdt.best_params_, grid_gbdt.best_score_

({'mean_fit_time': array([ 1.04818089,  3.06958101,  4.94570587,  2.10741355,  6.49262218,
         10.31357944,  3.79211471, 12.02091534, 19.82360842,  6.47681627,
         21.55113347, 36.75011723,  0.98570092,  2.69694235,  4.36460373,
          2.08887751,  5.49897749,  8.82655048,  3.94254134, 10.71680896,
         17.65818636,  7.33641875, 20.94076185, 36.44300106,  0.93227916,
          2.53501928,  4.2528425 ,  1.93049173,  5.26935222,  8.83973567,
          3.70204911, 10.58135281, 18.04044161,  7.09446683, 22.26043143,
         37.91747351]),
  'std_fit_time': array([0.00483648, 0.0206611 , 0.02346627, 0.01078171, 0.04006112,
         0.08443816, 0.05559104, 0.16459559, 0.27928162, 0.14452495,
         0.66920276, 0.75215195, 0.01029911, 0.02504625, 0.07578231,
         0.04792665, 0.12168305, 0.20212313, 0.07955249, 0.19383459,
         0.27861969, 0.16787211, 0.50177507, 0.5893442 , 0.0070915 ,
         0.01666785, 0.08162466, 0.03402036, 0.10060916, 0.15109724,
         0.05160359, 0.18684248, 0.14383105, 0.10197265, 0.23977306,
         2.26425837]),
  'mean_score_time': array([0.00471151, 0.0112366 , 0.0171237 , 0.00647447, 0.0172616 ,
         0.0264991 , 0.00875354, 0.02411616, 0.03694515, 0.01122572,
         0.0318507 , 0.05002267, 0.00462885, 0.00959365, 0.01390805,
         0.00651336, 0.01392448, 0.02110162, 0.00865908, 0.01957636,
         0.03109238, 0.01125824, 0.02738936, 0.04511173, 0.00438557,
         0.00871301, 0.01321261, 0.00598361, 0.01336231, 0.02128084,
         0.00788417, 0.01946959, 0.03210063, 0.01043718, 0.0282335 ,
         0.04428184]),
  'std_score_time': array([1.66779829e-04, 1.03325180e-04, 1.07752274e-04, 7.75191493e-05,
         1.42365449e-04, 2.01649271e-04, 8.73166179e-05, 1.47984253e-04,
         2.08206887e-04, 7.54081784e-05, 1.55344452e-04, 2.96993442e-04,
         2.14154570e-05, 4.05286409e-05, 1.29071777e-04, 8.44396348e-05,
         5.86331590e-05, 1.71900728e-04, 4.77111023e-05, 1.84118423e-04,
         3.62546530e-04, 9.20189008e-05, 2.26528819e-04, 3.68539617e-04,
         2.51831874e-05, 6.76646881e-05, 1.10660028e-04, 6.27695447e-05,
         1.87586799e-04, 2.69605476e-04, 4.36938978e-05, 2.31657194e-04,
         2.70279819e-04, 6.23716901e-05, 2.04953060e-04, 5.62525009e-03]),
  'param_learning_rate': masked_array(data=[0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01,
                     0.01, 0.01, 0.01, 0.05, 0.05, 0.05, 0.05, 0.05, 0.05,
                     0.05, 0.05, 0.05, 0.05, 0.05, 0.05, 0.1, 0.1, 0.1, 0.1,
                     0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1],
               mask=[False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False],
         fill_value='?',
              dtype=object),
  'param_max_depth': masked_array(data=[3, 3, 3, 5, 5, 5, 7, 7, 7, 9, 9, 9, 3, 3, 3, 5, 5, 5,
                     7, 7, 7, 9, 9, 9, 3, 3, 3, 5, 5, 5, 7, 7, 7, 9, 9, 9],
               mask=[False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False],
         fill_value='?',
              dtype=object),
  'param_n_estimators': masked_array(data=[100, 300, 500, 100, 300, 500, 100, 300, 500, 100, 300,
                     500, 100, 300, 500, 100, 300, 500, 100, 300, 500, 100,
                     300, 500, 100, 300, 500, 100, 300, 500, 100, 300, 500,
                     100, 300, 500],
               mask=[False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False, False, False, False, False,
                     False, False, False, False],
         fill_value='?',
              dtype=object),
  'params': [{'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 100},
   {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 300},
   {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 500},
   {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 100},
   {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 300},
   {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 500},
   {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 100},
   {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 300},
   {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 500},
   {'learning_rate': 0.01, 'max_depth': 9, 'n_estimators': 100},
   {'learning_rate': 0.01, 'max_depth': 9, 'n_estimators': 300},
   {'learning_rate': 0.01, 'max_depth': 9, 'n_estimators': 500},
   {'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 100},
   {'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 300},
   {'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 500},
   {'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 100},
   {'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 300},
   {'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 500},
   {'learning_rate': 0.05, 'max_depth': 7, 'n_estimators': 100},
   {'learning_rate': 0.05, 'max_depth': 7, 'n_estimators': 300},
   {'learning_rate': 0.05, 'max_depth': 7, 'n_estimators': 500},
   {'learning_rate': 0.05, 'max_depth': 9, 'n_estimators': 100},
   {'learning_rate': 0.05, 'max_depth': 9, 'n_estimators': 300},
   {'learning_rate': 0.05, 'max_depth': 9, 'n_estimators': 500},
   {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 100},
   {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 300},
   {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 500},
   {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 100},
   {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 300},
   {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 500},
   {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 100},
   {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 300},
   {'learning_rate': 0.1, 'max_depth': 7, 'n_estimators': 500},
   {'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 100},
   {'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 300},
   {'learning_rate': 0.1, 'max_depth': 9, 'n_estimators': 500}],
  'split0_test_score': array([0.82685223, 0.83422022, 0.84404421, 0.83381089, 0.84445354,
         0.8514122 , 0.83667622, 0.8465002 , 0.84854687, 0.83381089,
         0.84322554, 0.84322554, 0.84322554, 0.8514122 , 0.85427753,
         0.8526402 , 0.85345886, 0.85550553, 0.84813754, 0.84977487,
         0.84813754, 0.83954155, 0.84527221, 0.83626688, 0.8489562 ,
         0.85345886, 0.85059353, 0.85304953, 0.85059353, 0.85223086,
         0.84936553, 0.84609087, 0.84281621, 0.84445354, 0.83790422,
         0.83462955]),
  'split1_test_score': array([0.85304953, 0.86614818, 0.86860418, 0.86410151, 0.8714695 ,
         0.8726975 , 0.86410151, 0.87556283, 0.87883749, 0.86000819,
         0.8739255 , 0.87597217, 0.86901351, 0.87228817, 0.87679083,
         0.87474417, 0.87924683, 0.88129349, 0.87842816, 0.88088416,
         0.87842816, 0.87679083, 0.87310684, 0.86573885, 0.86778551,
         0.87965616, 0.88252149, 0.87679083, 0.87679083, 0.87842816,
         0.88047483, 0.8739255 , 0.8726975 , 0.8751535 , 0.86369218,
         0.86000819]),
  'split2_test_score': array([0.84486287, 0.85714286, 0.86369218, 0.84977487, 0.86942284,
         0.87187884, 0.85509619, 0.8751535 , 0.87597217, 0.85304953,
         0.87351617, 0.87842816, 0.86369218, 0.87474417, 0.8763815 ,
         0.87187884, 0.87679083, 0.87556283, 0.87433483, 0.8751535 ,
         0.8726975 , 0.87597217, 0.87228817, 0.86778551, 0.86983217,
         0.8763815 , 0.8763815 , 0.87351617, 0.87679083, 0.87187884,
         0.87597217, 0.87351617, 0.86860418, 0.87474417, 0.86410151,
         0.85509619]),
  'split3_test_score': array([0.83872288, 0.85509619, 0.86287352, 0.84527221, 0.87024151,
         0.8776095 , 0.85468686, 0.88006549, 0.88538682, 0.85918952,
         0.87597217, 0.87965616, 0.86369218, 0.87228817, 0.8763815 ,
         0.87801883, 0.88415882, 0.88620549, 0.88374949, 0.88620549,
         0.88252149, 0.88047483, 0.88293082, 0.86983217, 0.87065084,
         0.8763815 , 0.88129349, 0.88211216, 0.88538682, 0.88088416,
         0.88661482, 0.87842816, 0.87065084, 0.88252149, 0.87024151,
         0.86041752]),
  'split4_test_score': array([0.85176085, 0.86322686, 0.86936937, 0.86076986, 0.86895987,
         0.87755938, 0.85995086, 0.87223587, 0.87592138, 0.85462735,
         0.87264537, 0.87018837, 0.86895987, 0.87510238, 0.87510238,
         0.87960688, 0.87592138, 0.87387387, 0.87633088, 0.87428337,
         0.87141687, 0.87100737, 0.85913186, 0.86036036, 0.87469287,
         0.87469287, 0.87264537, 0.87633088, 0.87305487, 0.87387387,
         0.87674038, 0.86732187, 0.85954136, 0.86363636, 0.85135135,
         0.84602785]),
  'split5_test_score': array([0.83701884, 0.84930385, 0.85462735, 0.84930385, 0.85667486,
         0.86977887, 0.85012285, 0.86486486, 0.87346437, 0.84889435,
         0.87305487, 0.87510238, 0.85421785, 0.86977887, 0.87469287,
         0.87100737, 0.87510238, 0.87551188, 0.87469287, 0.87346437,
         0.87346437, 0.87469287, 0.87305487, 0.86527437, 0.86445536,
         0.87674038, 0.87714988, 0.87346437, 0.87755938, 0.87305487,
         0.87837838, 0.87469287, 0.86773137, 0.87387387, 0.86445536,
         0.85094185]),
  'split6_test_score': array([0.84719377, 0.85702581, 0.8648095 , 0.85661614, 0.86603851,
         0.8738222 , 0.85948382, 0.87832855, 0.88529291, 0.85948382,
         0.87709955, 0.8816059 , 0.8648095 , 0.8738222 , 0.88365424,
         0.87546088, 0.88652192, 0.88406391, 0.88324457, 0.88652192,
         0.88365424, 0.8816059 , 0.87996723, 0.8725932 , 0.86972552,
         0.88529291, 0.88816059, 0.88406391, 0.88365424, 0.8828349 ,
         0.88611225, 0.88447358, 0.86972552, 0.8828349 , 0.86603851,
         0.86317083]),
  'split7_test_score': array([0.8455551 , 0.85415813, 0.85702581, 0.85620647, 0.86153216,
         0.86644818, 0.85702581, 0.87054486, 0.8725932 , 0.85661614,
         0.87218353, 0.87423187, 0.85702581, 0.86685785, 0.86808685,
         0.86685785, 0.87013519, 0.87177386, 0.87587054, 0.87668988,
         0.8725932 , 0.87750922, 0.86849652, 0.86439984, 0.8635805 ,
         0.86849652, 0.87054486, 0.87218353, 0.87505121, 0.87668988,
         0.87505121, 0.86931585, 0.86644818, 0.87177386, 0.85948382,
         0.85866448]),
  'split8_test_score': array([0.84104875, 0.85006145, 0.8533388 , 0.84842278, 0.8545678 ,
         0.85989349, 0.84883245, 0.86030315, 0.86562884, 0.84965178,
         0.85866448, 0.8623515 , 0.85374846, 0.86030315, 0.86808685,
         0.85907415, 0.86972552, 0.86849652, 0.86685785, 0.86399017,
         0.8635805 , 0.8648095 , 0.86030315, 0.85497747, 0.85825481,
         0.86644818, 0.86726751, 0.86521917, 0.86644818, 0.86767718,
         0.86439984, 0.8623515 , 0.85866448, 0.86439984, 0.85497747,
         0.83981975]),
  'split9_test_score': array([0.84063908, 0.85292913, 0.85661614, 0.84924211, 0.86071282,
         0.86849652, 0.85210979, 0.87095453, 0.8725932 , 0.85292913,
         0.87095453, 0.87587054, 0.85866448, 0.87054486, 0.87709955,
         0.86931585, 0.87832855, 0.87996723, 0.87218353, 0.87587054,
         0.87218353, 0.87300287, 0.87300287, 0.87013519, 0.86521917,
         0.87546088, 0.87791889, 0.87587054, 0.87750922, 0.87505121,
         0.87587054, 0.8738222 , 0.86767718, 0.86931585, 0.86030315,
         0.86153216]),
  'mean_test_score': array([0.84266994, 0.8539312 , 0.85950041, 0.85135135, 0.86240786,
         0.86895987, 0.85380835, 0.86945127, 0.87342342, 0.85282555,
         0.86912367, 0.87166257, 0.85970516, 0.86871417, 0.87305487,
         0.86986077, 0.87493857, 0.87522523, 0.87338247, 0.87428337,
         0.87186732, 0.87153972, 0.86875512, 0.86273546, 0.86531532,
         0.87330057, 0.87444717, 0.87325962, 0.87428337, 0.87325962,
         0.87489762, 0.87039312, 0.86445536, 0.87027027, 0.85925471,
         0.8530303 ]),
  'std_test_score': array([0.00727039, 0.00826494, 0.0074335 , 0.00816746, 0.00818114,
         0.00769633, 0.00723565, 0.00950916, 0.01003632, 0.00735759,
         0.00986804, 0.01077537, 0.00758753, 0.00712003, 0.00757436,
         0.00802774, 0.00874896, 0.00840377, 0.00963988, 0.01025699,
         0.00965164, 0.01160156, 0.01053757, 0.0100632 , 0.0069548 ,
         0.00827922, 0.00981026, 0.00835648, 0.00932593, 0.00816926,
         0.01036404, 0.00990618, 0.00838173, 0.01055096, 0.00880306,
         0.0093857 ]),
  'rank_test_score': array([36, 31, 29, 35, 27, 21, 32, 19,  7, 34, 20, 14, 28, 23, 12, 18,  2,
          1,  8,  5, 13, 15, 22, 26, 24,  9,  4, 10,  5, 10,  3, 16, 25, 17,
         30, 33], dtype=int32)},
 {'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 500},
 0.8752252252252253)

# 预测测试集
grid_gbdt_pred = grid_gbdt.predict(X_test)
print(pd.crosstab(grid_gbdt_pred, y_test))

# 模型得分
print('模型在训练集上的准确率%f' %grid_gbdt.score(X_train,y_train))
print('模型在测试集上的准确率%f' %grid_gbdt.score(X_test,y_test))

# 绘制ROC曲线
fpr, tpr, _ = metrics.roc_curve(y_test, grid_gbdt_pred)
plt.plot(fpr, tpr, linestyle = 'solid', color = 'red')
plt.stackplot(fpr, tpr, color = 'steelblue')
plt.plot([0,1],[0,1], linestyle = 'dashed', color = 'black')
plt.text(0.6,0.4,'AUC=%.3f' % metrics.auc(fpr,tpr), fontdict = dict(size = 18))
plt.show()

income     0     1
row_0             
0       5833   655
1        393  1260
模型在训练集上的准确率0.897379
模型在测试集上的准确率0.871269

代码来自：
从零开始学python数据挖掘与分析第二章

你可能感兴趣的:(数据挖掘)

数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据挖掘算法：KNN、SVM、决策树详解大力出奇迹985 数据挖掘算法支持向量机
本文将详细解析数据挖掘领域中常用的三种经典算法：KNN（K近邻算法）、SVM（支持向量机）和决策树。首先分别阐述每种算法的核心原理、实现步骤，再分析它们的优缺点及适用场景，最后对这三种算法进行综合对比与总结。通过本文，读者能全面了解这三种算法的特性，为实际数据挖掘任务中算法的选择提供参考，助力提升数据处理与分析的效率和准确性。在当今信息爆炸的时代，数据挖掘技术在各行各业发挥着至关重要的作用，而算法
Python爬虫实战：研究flanker相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 flanker
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信
数据分析概念和总结小小少年Boy
参考：什么是数据分析？总结：决策=数据+分析数据分析的框架：明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈数据分析与数据挖掘，前者偏向于业务分析，后者偏向于数据库算法，借助数据来指导决策数据分析的框架1.首先是数据分析的目的性极强区别于数据挖掘的找关联、分类、聚类，数据分析更倾向于解决现实中的问题。我想解决什么问题？通过这次的分析能让我产生什么决策？比如是否在某个高校举办一场活动
高省没有邀请码怎么注册？高省app总部邀请码是什么？日常购物技巧呀
基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平台，外卖平台，旅游、票务、出行、加油等高频生活服务全场景的线上生活商城。高省是正规平台吗？高省还能做吗？最新资讯【高省】分会员和运营商，会员定位是自用的，而运营是针对推广
生信数据挖掘+实验验证 | 鉴定RECK基因为胃癌的保护性预后指标和肿瘤抑制因子（抑制ERK/MAPK 信号通路）生信宝库
前言image.png据相关统计，胃癌(GC)在所有癌症中的发生率位居第五位，相关死亡率排第四位。大多数GC患者在诊断时已处于晚期并发生肿瘤转移，导致预后不佳，5年总生存率低于30%。因此，迫切需要找到用于早期诊断和治疗的特异性、敏感性预后相关分子标志物，并阐明GC发生和转移的分子机制。本研究旨在探索RECK作为预后分子标志物的潜力，并揭示其在肿瘤发生和转移中的潜在机制。RECK（具有Kazal基
厌氧菌数据挖掘可行性评估报告 pk_xz123456 算法 python 数据挖掘人工智能深度学习超分辨率重建数学建模神经网络
厌氧菌数据挖掘可行性评估报告前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.项目概述本报告旨在评估使用Python从两个目标网站（https://www.dbdata.com/和https://pubmed.ncbi.nlm.nih.gov/）爬取20种厌氧菌的培养基、培养条件及文献来源信息的可行性。客户希望构建一个网站，使用户能
【Python-网络爬虫】爬虫的基础概念介绍敖云岚 python 爬虫开发语言
目录一、爬虫的介绍1.1爬虫的概念1.2爬虫的作用1.搜索引擎数据索引2.商业数据采集与分析3.舆情监控与社交分析4.学术研究与数据挖掘5.信息聚合与服务优化二、爬虫的分类三、爬虫的基本流程3.1基本流程3.2Robots协议一、爬虫的介绍1.1爬虫的概念爬虫的概念：通过模拟浏览器发送请求，从而获取响应1.2爬虫的作用1.搜索引擎数据索引搜索引擎如Google、百度等依赖爬虫技术构建庞大的网页索引
数据挖掘实战-基于随机森林算法的空气质量污染预测模型艾派森数据挖掘实战合集信息可视化人工智能 python 数据挖掘随机森林
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具4.实验过程
KNN 算法进阶：从基础到优化的深度解析二向箔reverse 人工智能机器学习
在机器学习的广袤领域中，K-近邻算法（K-NearestNeighbors,KNN）以其简洁直观的理念，宛如一颗璀璨的明星，照亮了无数初学者踏入机器学习大门的道路。自1951年由EvelynFix和JosephHodges创立，并经ThomasCover进一步完善以来，KNN算法凭借其独特的魅力，在数据挖掘、推荐系统、物联网等众多领域发挥着中流砥柱的作用，成为了监督学习算法家族中不可或缺的一员。一
数据科学与大数据技术专业的核心课程体系及发展路径全解析 YangYang9YangYan 大数据
CDA数据分析师证书含金量高，适应了未来数字化经济和AI发展趋势，难度不高，行业认可度高，对于找工作很有帮助。一、课程体系三维地图二、核心课程能力矩阵课程模块关键技能行业应用场景工具链分布式计算Spark调优用户行为日志分析AWSEMR/Databricks数据挖掘特征工程金融反欺诈模型Scikit-learn实时数据处理Flink窗口计算物联网设备监控Kafka+Flink数据治理元数据管理企业
Python 爬虫进阶：优化代码设计，实现高效爬取与存储
随着数据的不断增多，爬虫技术已成为数据获取和数据挖掘中不可或缺的一部分。对于简单的爬虫来说，代码实现相对简单，但当爬取目标网站的数据量增大时，如何优化代码设计、提高爬取效率、确保数据的准确存储和避免被封禁，就成了爬虫开发中的关键问题。本篇文章将深入探讨如何优化Python爬虫的设计，主要关注以下几个方面：高效的网页爬取：如何提升爬虫的抓取效率。代码模块化设计：如何将爬虫任务拆解成可复用的模块。并发
数据挖掘领域经典算法——CART算法丨程序之道丨
简介CART与C4.5类似，是决策树算法的一种。此外，常见的决策树算法还有ID3，这三者的不同之处在于特征的划分：ID3：特征划分基于信息增益C4.5：特征划分基于信息增益比CART：特征划分基于基尼指数基本思想CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限
Day 17: 常见的聚类算法
聚类算法聚类算法是一种无监督学习技术，用于将数据集中的相似对象分组到不同的类别（称为“簇”）中，而不需要预先定义的标签。其核心目标是：同一簇内的数据点尽可能相似（高内聚性），不同簇之间的数据点尽可能不同（高分离性）。聚类广泛应用于数据挖掘、模式识别、图像处理等领域，如客户细分、文档分类或异常检测。聚类算法的基本原理聚类依赖于相似度度量（如欧氏距离）来评估数据点之间的接近程度。假设数据集包含nnn个
量化投资革命：卫星图像数据如何提升价值投资准确率 AI量化价值投资入门到精通 ai
量化投资革命：卫星图像数据如何提升价值投资准确率关键词：量化投资、卫星图像数据、价值投资、准确率提升、数据挖掘摘要：本文聚焦于量化投资领域，深入探讨卫星图像数据在提升价值投资准确率方面的关键作用。首先介绍量化投资与价值投资的背景，引出卫星图像数据的引入。接着详细阐述卫星图像数据的核心概念、与投资的联系以及数据处理的核心算法原理。通过数学模型和公式分析其如何助力投资决策。结合实际项目案例展示卫星图像
Scikitlearn：Python机器学习库 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
-Scikit-learn：Python机器学习库1.背景介绍1.1什么是Scikit-learnScikit-learn是一个基于Python语言的开源机器学习库。它建立在NumPy、SciPy和matplotlib等优秀的科学计算库之上,为用户提供了一系列高效的数据挖掘和数据分析工具,涵盖了分类、回归、聚类、降维、模型选择和预处理等机器学习的各个方面。Scikit-learn的目标是提供一个高
【JS逆向基础】script框架是星凡呢 python与JS逆向 javascript 开发语言 ecmascript python JS逆向
scrapy框架1，基本介绍Scrapy一个开源和协作的框架，其最初是为了页面抓取(更确切来说,网络抓取)所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如AmazonAssociatesWebServices)或者通用的网络爬虫。Scrapy是基于twisted
中国计算机学会（CCF）推荐学术会议-B（数据库／数据挖掘／内容检索）：CIDR 2026 爱思德学术数据分析系统架构数据库
CIDR2026TheConferenceonInnovativeDataSystemsResearch(CIDR)isasystems-orientedconference,complementaryinitsmissiontothemainstreamdatabaseconferenceslikeSIGMODandVLDB,emphasizingthesystemsarchitecturepe
中国计算机学会（CCF）推荐学术会议-A（数据库／数据挖掘／内容检索）：ACM KDD 2026 爱思德学术大数据人工智能数据挖掘
ACMKDD2026KDDisthepremierDataScienceandAIconference,hostingbothaResearchandanAppliedDataScienceTrack.TheconferencewilltakeplacefromAugust9to13,2026,inJeju,Korea.KDDhastwosubmissioncyclesperyear.Thisca
250714脑电分析课题进展——基础知识扩展与论文阅读
脑电分析课题进展目录脑电分析课题进展一、概要二、论文阅读（一）内容（二）创新（三）不足三、书籍阅读四、基础知识学习（一）机器学习（二）代码能力五、总结与展望一、概要本周课题进展聚焦于论文与书籍阅读，以及基础知识的学习（包括机器学习与PyTorch的代码学习）论文阅读以毕明川学姐的学位论文为参考《基于EEG的冥想状态数据挖掘研究》书籍阅读以李颖洁的《脑电信号分析方法及其应用》第一章内容为重点机器学习
软考 | 系统架构设计师：信息系统综合知识大纲（思维导图）啊有礼貌软考系统架构设计师架构师思维导图软件架构
1.计算机软件与网络基础知识1.1操作系统操作系统的类型和结构操作系统基本原理网络操作系统及网络管理嵌入式操作系统与实时操作系统1.2数据库系统数据库管理系统的类型、结构和性能评价常用的关系型数据库管理系统数据库模式数据库规范化分布式数据库系统，并行数据库系统数据仓库与数据挖掘技术数据库工程备份恢复1.3嵌入式系统嵌入式系统的特点嵌入式系统的硬件组成与设计嵌入式系统应用软件及开发平台嵌入式系统网络
AI系统Spark原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI系统Spark原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Spark、大数据处理、分布式计算、机器学习、数据挖掘、实时流处理1.背景介绍1.1问题的由来在大数据时代,海量数据的高效处理和分析已成为各行各业的迫切需求。传统的数据处理方式难以应对数据量激增、数据类型多样化以及实时性要求高等挑战。为了解决这些问题,Ap
python爬虫入门：批量下载图片有盐、在见 python 爬虫开发语言
引言：爬虫也被称为网络蜘蛛（Spider），是一种自动化的软件程序，能够在互联网上漫游，按照一定的规则和算法抓取数据。爬虫技术广泛应用于搜索引擎、数据挖掘、信息提取等领域，是互联网技术的重要组成部分。摘要：很多初学者对于一个这样新奇的事务当然愿意去探索，我也一样，突然想要学一点关于python爬虫的知识，说干就干！那就学！如果以下说的有错误，及时指出，定会修改。本文将介绍如何从图片网站批量下载图片
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
高省app没有邀请码怎么注册？高省app总部邀请码是什么？古楼
高省是正规平台吗？高省app是杭州长孚科技有限公司旗下的一款电商导购应用，为用户打造一个电商购物优惠平台，用户可以在这个App中领取主流商城的商品隐藏优惠券以及获得返利。基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平
如何使用爬虫简单的爬取一个网页的静态前端代码
什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM
【Pandas超实用经验汇总-数据建模分析】 Mr.小海 Python 数据挖掘数据分析 python
Pandas超实用经验汇总-数据分析前言基本方法1.读取文件2.查看数据3.修改、删除、替换数据等总结前言看见了很多教程虽然很全，但是很多技巧容易忘记且几乎用不上，读起来晦涩难懂，今天我给大家总结了Pandas的一些学习经验技巧，包含常见日常使用的pandas知识，以及一些技巧,这些技巧常见于数学建模，数据分析，数据挖掘比赛等。基本方法1.读取文件方法如下：importpandasaspd#正常写
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
推荐文章：《同济大学软件学院万院长谈择业》 weixin_34087301
同济大学软件学院万院长谈择业一、关于企业计算方向企业计算（EnterpriseComputing）是稍时髦较好听的名词，主要是指企业信息系统，如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件），银行证券软件，财务软件，电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最大的，因为这是计算
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比