qq_32811823

信用卡评分模型构建数据

信用卡评分模型构建

背景描述

目前拥有用户年龄，信用卡和个人信贷额度的总余额，过去2年借款人逾期，预测借款人是否会预期次数，月收入，负债比率，家属等信息，通过这些信息建立风控，信用评分模型，预测预测借款人是否会预期。

一.导入数据和库

导入相应库

import datetime
import pandas as pd
import numpy as np
import os
import seaborn as sns
import re
import matplotlib.pyplot as plt
import warnings

warnings.filterwarnings('always')
warnings.filterwarnings('ignore')
sns.set(style="darkgrid")
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示

/opt/conda/lib/python3.6/importlib/_bootstrap.py:219: RuntimeWarning: numpy.dtype size changed, may indicate binary incompatibility. Expected 96, got 88
  return f(*args, **kwds)
/opt/conda/lib/python3.6/importlib/_bootstrap.py:219: RuntimeWarning: numpy.dtype size changed, may indicate binary incompatibility. Expected 96, got 88
  return f(*args, **kwds)


time: 1.57 s

导入数据

train = pd.read_csv('/home/kesci/input/kaggle4396/cs-training.csv')
test = pd.read_csv('/home/kesci/input/kaggle4396/cs-test.csv')

time: 248 ms

train.drop(columns=["Unnamed: 0"], inplace=True)
test.drop(columns=["Unnamed: 0"], inplace=True)

time: 9.83 ms

数据维度

train.shape

(150000, 11)



time: 3.97 ms

有无缺失值

train.isnull().sum()

SeriousDlqin2yrs                            0
RevolvingUtilizationOfUnsecuredLines        0
age                                         0
NumberOfTime30-59DaysPastDueNotWorse        0
DebtRatio                                   0
MonthlyIncome                           29731
NumberOfOpenCreditLinesAndLoans             0
NumberOfTimes90DaysLate                     0
NumberRealEstateLoansOrLines                0
NumberOfTime60-89DaysPastDueNotWorse        0
NumberOfDependents                       3924
dtype: int64



time: 30.9 ms

有无重复值

train.duplicated().sum()

609



time: 61.2 ms

整体分布

train.info()


RangeIndex: 150000 entries, 0 to 149999
Data columns (total 11 columns):
SeriousDlqin2yrs                        150000 non-null int64
RevolvingUtilizationOfUnsecuredLines    150000 non-null float64
age                                     150000 non-null int64
NumberOfTime30-59DaysPastDueNotWorse    150000 non-null int64
DebtRatio                               150000 non-null float64
MonthlyIncome                           120269 non-null float64
NumberOfOpenCreditLinesAndLoans         150000 non-null int64
NumberOfTimes90DaysLate                 150000 non-null int64
NumberRealEstateLoansOrLines            150000 non-null int64
NumberOfTime60-89DaysPastDueNotWorse    150000 non-null int64
NumberOfDependents                      146076 non-null float64
dtypes: float64(4), int64(7)
memory usage: 12.6 MB
time: 32.2 ms

看下数据

train.head()

	SeriousDlqin2yrs	RevolvingUtilizationOfUnsecuredLines	age	NumberOfTime30-59DaysPastDueNotWorse	DebtRatio	MonthlyIncome	NumberOfOpenCreditLinesAndLoans	NumberOfTimes90DaysLate	NumberRealEstateLoansOrLines	NumberOfDependents
0	1	0.766127	45	2	0.802982	9120.0	13	0	6	2.0
1	0	0.957151	40	0	0.121876	2600.0	4	0	0	1.0
2	0	0.658180	38	1	0.085113	3042.0	2	1	0	0.0
3	0	0.233810	30	0	0.036050	3300.0	5	0	0	0.0
4	0	0.907239	49	1	0.024926	63588.0	7	0	1	0.0

time: 12.1 ms

cor=train.corr()
fig, ax = plt.subplots(figsize=(10, 10))
sns.heatmap(cor, xticklabels=cor.columns, yticklabels=cor.columns, annot=True, ax=ax);

time: 1.2 s

二.数据前处理

train_clean = train.copy()

time: 6.31 ms

去重

train_clean.drop_duplicates(inplace=True)

time: 198 ms

缺失值处理

通过众数填充缺失值

def fill_na(df):
    na_list = [i for i in df.isnull().sum().index if df.isnull().sum()[i] > 0]
    for n in na_list:
        train_fillna = train_clean[n][train_clean[n].isna() == False]
        train_clean[n].fillna(train_fillna.median(), inplace=True)

time: 1.13 ms

fill_na(train_clean)
train_clean.isnull().sum()

SeriousDlqin2yrs                        0
RevolvingUtilizationOfUnsecuredLines    0
age                                     0
NumberOfTime30-59DaysPastDueNotWorse    0
DebtRatio                               0
MonthlyIncome                           0
NumberOfOpenCreditLinesAndLoans         0
NumberOfTimes90DaysLate                 0
NumberRealEstateLoansOrLines            0
NumberOfTime60-89DaysPastDueNotWorse    0
NumberOfDependents                      0
dtype: int64



time: 360 ms

贷款人的年龄分布

plt.figure(figsize=(16, 6))
sns.distplot(train_clean["age"], color = "black");

time: 665 ms

train_clean["age_label"] = pd.cut(train_clean["age"], np.arange(20, 110, 10))

time: 9.82 ms

# 重新分组,合并样本太少或者违约率过于接近的分组
bins = [0, 30, 40, 50, 60, 70, 110]
labels = ['0-29', '30-39', '40-49', '50-59', '60-69', '70+']
train_clean['age_grouped'] = pd.cut(train_clean['age'], bins, right=0, labels=labels)
train_clean.drop(columns="age", inplace=True)

time: 13.2 ms

def plot_age(col, fun):
    data = pd.concat([train_clean[col], train_clean["age_label"]], axis = 1)
    if fun == "s":
        df = data.groupby("age_label")[col].sum()
    elif fun == "m":
        df = data.groupby("age_label")[col].mean()

    df.plot(kind="bar", figsize=(16, 6))

time: 1.14 ms

贷款人的信用卡和个人信贷额度的总余额和年龄关系

plot_age("RevolvingUtilizationOfUnsecuredLines", "m");

time: 294 ms

# RevolvingUtilizationOfUnsecuredLines项离散化
bins = [0, 0.15, 0.30, 0.45, 0.60, 0.75, 0.90, 1.05,
        train_clean['RevolvingUtilizationOfUnsecuredLines'].max()*1.05]
labels = [
    '0-0.15',
    '0.15-0.30',
    '0.30-0.45',
    '0.45-0.60',
    '0.60-0.75',
    '0.75-0.90',
    '0.90-1.05',
    '1.05+']

train_clean['ru_grouped'] = pd.cut(train_clean['RevolvingUtilizationOfUnsecuredLines'],
                                   bins, right=0, labels=labels)
train_clean.drop(columns='ru_grouped', inplace=True)

time: 12.8 ms

负债率是否有异常值

plt.figure(figsize=(16, 6))
sns.distplot(train_clean['DebtRatio'].apply(np.log1p), color="r");

time: 748 ms

train_clean["dr_log"] = train_clean["DebtRatio"].apply(np.log1p)
train_clean.drop(columns="DebtRatio", inplace=True)
plot_age("dr_log", "m")

time: 452 ms

# 对NumberOfOpenCreditLinesAndLoans分组
bins = [0, 2, 4, 6, 10, 14,
       train_clean['NumberOfOpenCreditLinesAndLoans'].max()*1.05]
labels = ['0-1', '2-3', '4-5', '6-9', '10-13', '14+']
train_clean['num_oc_grouped'] = pd.cut(train_clean['NumberOfOpenCreditLinesAndLoans'], \
                                       bins, right=0, labels=labels)
train_clean.drop(columns='NumberOfOpenCreditLinesAndLoans', inplace=True)

time: 13.2 ms

# 对NumberOfDependents分组
bins = [0, 1, 2, 4, 
       train_clean['NumberOfDependents'].max()*1.05]
labels = ['0', '1', '2-3', '4+']
train_clean['num_dep_grouped'] = pd.cut(train_clean['NumberOfDependents'], \
                                        bins, right=0, labels=labels)
train_clean.drop(columns='num_dep_grouped', inplace=True)

time: 10.6 ms

过去2年，借款人逾期次数

PastDueNotWorse = [i for i in train_clean.columns if "NumberOfTime" in i]
plot_age(PastDueNotWorse, fun = "m")

time: 566 ms

cor = train_clean[PastDueNotWorse].corr()
cor

	NumberOfTime30-59DaysPastDueNotWorse	NumberOfTimes90DaysLate	NumberOfTime60-89DaysPastDueNotWorse
NumberOfTime30-59DaysPastDueNotWorse	1.000000	0.980489	0.984535
NumberOfTimes90DaysLate	0.980489	1.000000	0.991409
NumberOfTime60-89DaysPastDueNotWorse	0.984535	0.991409	1.000000

time: 12 ms

#30-59天逾期,60-89天逾期，90天以上逾期周三列相关系数较高，保留一列建模
train_clean.drop(columns=["NumberOfTime30-59DaysPastDueNotWorse", \
                          "NumberOfTime60-89DaysPastDueNotWorse"], inplace=True)

time: 3.13 ms

借款人是否逾期和年龄关系

plt.figure(figsize=(16, 6))
sns.countplot(data=train_clean, x="age_label", hue="SeriousDlqin2yrs");

time: 376 ms

逾期的分布

train_clean['income_log'] = (train_clean['MonthlyIncome']/10000).apply(np.log1p)
train_clean.drop(columns=['MonthlyIncome'], inplace=True)

time: 8.29 ms

三.训练模型

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import f1_score, roc_auc_score, confusion_matrix, accuracy_score, fbeta_score
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

time: 776 µs

首先使用逻辑回归建模

attributes = train_clean.columns.drop(['SeriousDlqin2yrs'])
sol = ['SeriousDlqin2yrs']
df = pd.get_dummies(train_clean, drop_first=True)
X = pd.get_dummies(train_clean[attributes], drop_first=True)
y = train_clean[sol]

X_train, X_valid, y_train, y_valid = train_test_split(
    X, y, test_size=0.25, shuffle=True)

time: 77.2 ms

def plot_est_score(Range):
    score_list = pd.DataFrame({}, index=np.arange(
        Range.shape[0]+1), columns=[["train_score", "test_score"]])
    for i in Range:
        lg = LogisticRegression(C=i, solver='lbfgs')
        pred = lg.fit(X_train, y_train).predict(X_valid)
        ascore = lg.score(X_train, y_train)
        fscore = lg.score(X_valid, y_valid)
        score_list.loc[i-1, "train_score"] = ascore
        score_list.loc[i-1, "test_score"] = fscore
    score_list.dropna(inplace=True)
    score_max = score_list.max()
    score_max_index = score_list[score_list == score_list.max()].dropna().index[0]
    print(
        "nC={}\nmax =\n{}".format(
            score_max_index,
            score_max))
    score_list.plot(figsize=(16, 4))

time: 1.95 ms

plot_est_score(np.array([0.01, 0.03, 0.1, 0.3, 1, 3, 10]))

nC=-0.99
max =
train_score    0.933534
test_score     0.932660
dtype: float64

time: 32.7 s

这里开始网络调参

params_LR = {'C': [0.01, 0.03, 0.1, 0.3, 1, 3, 10],
            'solver': ['lbfgs', 'liblinear']}
gs = GridSearchCV(LogisticRegression(max_iter=1000), 
                  param_grid = params_LR,
                  scoring = 'f1',
                  cv=5).fit(X_train, y_train)
gs.best_params_

{'C': 0.01, 'solver': 'lbfgs'}



time: 7min 41s

model_lr = LogisticRegression(C=gs.best_params_['C'], solver=gs.best_params_['solver']).fit(X_train, y_train)
print('train Score: %.6f' % model_lr.score(X_train, y_train))
print('valid Score: %.6f' %  model_lr.score(X_valid, y_valid))

train Score: 0.933534
valid Score: 0.932660
time: 4.63 s

使用XGBOOST建模预测

import xgboost as xgb
params_xgb = {'max_depth': 6,
              'eta': 1,
              'silent': 1,
              'objective': 'binary:logistic',
              'eval_matric': 'f1'}

# 借用GaryMulder的参数:
params_xgb2 = {'max_depth': 5,
               'eta': 0.025,
               'silent':1,
               'objective': 'binary:logistic',
               'eval_matric': 'auc',
               'minchildweight': 10.0,
               'maxdeltastep': 1.8,
               'colsample_bytree': 0.4,
               'subsample': 0.8,
               'gamma': 0.65,
               'numboostround' : 391}

time: 91.4 ms

regex = re.compile(r"\[|\]|<", re.IGNORECASE)
feature_name = [regex.sub("_", col) if any(x in str(col) for x in set(('[', ']', '<'))) else col for col in X.columns]

time: 1.16 ms

dtrain = xgb.DMatrix(X_train, y_train, feature_names=feature_name)
dvalid = xgb.DMatrix(X_valid, y_valid, feature_names=feature_name)
evals = [(dtrain, 'train'), (dvalid, 'valid')]
model_xgb = xgb.train(params_xgb2, dtrain, 1000, evals, early_stopping_rounds=100);

[0]	train-error:0.066403	valid-error:0.068973
Multiple eval metrics have been passed: 'valid-error' will be used for early stopping.

Will train until valid-error hasn't improved in 100 rounds.
[1]	train-error:0.065118	valid-error:0.066858
[2]	train-error:0.065725	valid-error:0.067259
[3]	train-error:0.066742	valid-error:0.067714
[4]	train-error:0.066751	valid-error:0.067741
[5]	train-error:0.066751	valid-error:0.067741
[6]	train-error:0.066751	valid-error:0.067741
[7]	train-error:0.066751	valid-error:0.067741
[8]	train-error:0.066733	valid-error:0.067768
[9]	train-error:0.066751	valid-error:0.067741
[10]	train-error:0.066751	valid-error:0.067741
[11]	train-error:0.066742	valid-error:0.067741
[12]	train-error:0.066671	valid-error:0.067741
[13]	train-error:0.066742	valid-error:0.067741
[14]	train-error:0.066751	valid-error:0.067741
[15]	train-error:0.066751	valid-error:0.067741
[16]	train-error:0.066751	valid-error:0.067741
[17]	train-error:0.066751	valid-error:0.067741
[18]	train-error:0.066751	valid-error:0.067741
[19]	train-error:0.066751	valid-error:0.067741
[20]	train-error:0.066751	valid-error:0.067741
[21]	train-error:0.066751	valid-error:0.067741
[22]	train-error:0.066751	valid-error:0.067741
[23]	train-error:0.066751	valid-error:0.067741
[24]	train-error:0.066751	valid-error:0.067741
[25]	train-error:0.066751	valid-error:0.067741
[26]	train-error:0.066751	valid-error:0.067741
[27]	train-error:0.066751	valid-error:0.067741
[28]	train-error:0.066751	valid-error:0.067741
[29]	train-error:0.066742	valid-error:0.067741
[30]	train-error:0.066733	valid-error:0.067741
[31]	train-error:0.066671	valid-error:0.067741
[32]	train-error:0.066635	valid-error:0.067714
[33]	train-error:0.066689	valid-error:0.067741
[34]	train-error:0.066742	valid-error:0.067741
[35]	train-error:0.066742	valid-error:0.067741
[36]	train-error:0.066742	valid-error:0.067741
[37]	train-error:0.066698	valid-error:0.067741
[38]	train-error:0.066635	valid-error:0.067741
[39]	train-error:0.066599	valid-error:0.067634
[40]	train-error:0.066617	valid-error:0.067688
[41]	train-error:0.066608	valid-error:0.067634
[42]	train-error:0.066635	valid-error:0.067714
[43]	train-error:0.066653	valid-error:0.067741
[44]	train-error:0.066689	valid-error:0.067741
[45]	train-error:0.066644	valid-error:0.067714
[46]	train-error:0.066689	valid-error:0.067741
[47]	train-error:0.066644	valid-error:0.067714
[48]	train-error:0.066635	valid-error:0.067714
[49]	train-error:0.066617	valid-error:0.067661
[50]	train-error:0.066582	valid-error:0.067607
[51]	train-error:0.06651	valid-error:0.067527
[52]	train-error:0.066457	valid-error:0.067527
[53]	train-error:0.066341	valid-error:0.067473
[54]	train-error:0.066323	valid-error:0.067447
[55]	train-error:0.06626	valid-error:0.067473
[56]	train-error:0.066332	valid-error:0.067473
[57]	train-error:0.06626	valid-error:0.0675
[58]	train-error:0.066189	valid-error:0.067447
[59]	train-error:0.066135	valid-error:0.067447
[60]	train-error:0.066189	valid-error:0.067473
[61]	train-error:0.066144	valid-error:0.067447
[62]	train-error:0.066117	valid-error:0.067366
[63]	train-error:0.066082	valid-error:0.067313
[64]	train-error:0.066028	valid-error:0.067206
[65]	train-error:0.0661	valid-error:0.06734
[66]	train-error:0.066001	valid-error:0.067259
[67]	train-error:0.065984	valid-error:0.067152
[68]	train-error:0.065903	valid-error:0.067018
[69]	train-error:0.065796	valid-error:0.066938
[70]	train-error:0.065876	valid-error:0.066965
[71]	train-error:0.065939	valid-error:0.067045
[72]	train-error:0.065984	valid-error:0.067152
[73]	train-error:0.065894	valid-error:0.066992
[74]	train-error:0.065805	valid-error:0.066965
[75]	train-error:0.065868	valid-error:0.067018
[76]	train-error:0.065912	valid-error:0.067018
[77]	train-error:0.065796	valid-error:0.066965
[78]	train-error:0.065662	valid-error:0.066965
[79]	train-error:0.065725	valid-error:0.066992
[80]	train-error:0.065796	valid-error:0.067018
[81]	train-error:0.065778	valid-error:0.066938
[82]	train-error:0.065752	valid-error:0.066831
[83]	train-error:0.065832	valid-error:0.066938
[84]	train-error:0.065725	valid-error:0.066911
[85]	train-error:0.065609	valid-error:0.066884
[86]	train-error:0.065689	valid-error:0.066938
[87]	train-error:0.065653	valid-error:0.066858
[88]	train-error:0.065618	valid-error:0.066751
[89]	train-error:0.065627	valid-error:0.066751
[90]	train-error:0.065591	valid-error:0.066697
[91]	train-error:0.065636	valid-error:0.066777
[92]	train-error:0.065636	valid-error:0.066804
[93]	train-error:0.065582	valid-error:0.066751
[94]	train-error:0.065582	valid-error:0.06667
[95]	train-error:0.065618	valid-error:0.066751
[96]	train-error:0.065573	valid-error:0.066617
[97]	train-error:0.065484	valid-error:0.066563
[98]	train-error:0.065395	valid-error:0.06659
[99]	train-error:0.065359	valid-error:0.066563
[100]	train-error:0.065421	valid-error:0.066563
[101]	train-error:0.065484	valid-error:0.066617
[102]	train-error:0.065368	valid-error:0.066563
[103]	train-error:0.06527	valid-error:0.066349
[104]	train-error:0.065225	valid-error:0.066269
[105]	train-error:0.065073	valid-error:0.066242
[106]	train-error:0.064984	valid-error:0.066188
[107]	train-error:0.064913	valid-error:0.066162
[108]	train-error:0.064797	valid-error:0.065921
[109]	train-error:0.064868	valid-error:0.066001
[110]	train-error:0.064761	valid-error:0.065813
[111]	train-error:0.064805	valid-error:0.06584
[112]	train-error:0.064743	valid-error:0.065867
[113]	train-error:0.064672	valid-error:0.065813
[114]	train-error:0.064582	valid-error:0.065653
[115]	train-error:0.064475	valid-error:0.065572
[116]	train-error:0.06444	valid-error:0.065626
[117]	train-error:0.06444	valid-error:0.065439
[118]	train-error:0.064404	valid-error:0.065385
[119]	train-error:0.064359	valid-error:0.065385
[120]	train-error:0.06435	valid-error:0.065412
[121]	train-error:0.064368	valid-error:0.065385
[122]	train-error:0.064359	valid-error:0.065465
[123]	train-error:0.06435	valid-error:0.065412
[124]	train-error:0.064359	valid-error:0.065385
[125]	train-error:0.064377	valid-error:0.065546
[126]	train-error:0.064332	valid-error:0.065385
[127]	train-error:0.064341	valid-error:0.065465
[128]	train-error:0.064288	valid-error:0.065465
[129]	train-error:0.064288	valid-error:0.065492
[130]	train-error:0.064216	valid-error:0.065439
[131]	train-error:0.064252	valid-error:0.065385
[132]	train-error:0.064181	valid-error:0.065358
[133]	train-error:0.064047	valid-error:0.065385
[134]	train-error:0.064083	valid-error:0.065358
[135]	train-error:0.064127	valid-error:0.065385
[136]	train-error:0.064091	valid-error:0.065385
[137]	train-error:0.064047	valid-error:0.065412
[138]	train-error:0.06402	valid-error:0.065358
[139]	train-error:0.064002	valid-error:0.065331
[140]	train-error:0.06402	valid-error:0.065358
[141]	train-error:0.063931	valid-error:0.065412
[142]	train-error:0.063993	valid-error:0.065385
[143]	train-error:0.06385	valid-error:0.065358
[144]	train-error:0.063859	valid-error:0.065358
[145]	train-error:0.063868	valid-error:0.065305
[146]	train-error:0.063833	valid-error:0.065251
[147]	train-error:0.063779	valid-error:0.065251
[148]	train-error:0.063681	valid-error:0.065198
[149]	train-error:0.063645	valid-error:0.065198
[150]	train-error:0.06361	valid-error:0.065171
[151]	train-error:0.06361	valid-error:0.06509
[152]	train-error:0.06361	valid-error:0.065144
[153]	train-error:0.063565	valid-error:0.06509
[154]	train-error:0.063547	valid-error:0.065117
[155]	train-error:0.063529	valid-error:0.065117
[156]	train-error:0.063467	valid-error:0.065064
[157]	train-error:0.06352	valid-error:0.065171
[158]	train-error:0.063529	valid-error:0.065224
[159]	train-error:0.063422	valid-error:0.06509
[160]	train-error:0.063413	valid-error:0.065117
[161]	train-error:0.063476	valid-error:0.065171
[162]	train-error:0.063395	valid-error:0.065144
[163]	train-error:0.063422	valid-error:0.065144
[164]	train-error:0.063395	valid-error:0.065144
[165]	train-error:0.06336	valid-error:0.065144
[166]	train-error:0.063369	valid-error:0.065171
[167]	train-error:0.063324	valid-error:0.065117
[168]	train-error:0.06336	valid-error:0.065064
[169]	train-error:0.063315	valid-error:0.065064
[170]	train-error:0.063333	valid-error:0.065037
[171]	train-error:0.063315	valid-error:0.06509
[172]	train-error:0.063297	valid-error:0.065117
[173]	train-error:0.063315	valid-error:0.065144
[174]	train-error:0.063306	valid-error:0.065117
[175]	train-error:0.063253	valid-error:0.065117
[176]	train-error:0.063279	valid-error:0.065117
[177]	train-error:0.063324	valid-error:0.065117
[178]	train-error:0.063288	valid-error:0.06509
[179]	train-error:0.063297	valid-error:0.065198
[180]	train-error:0.063288	valid-error:0.06509
[181]	train-error:0.063297	valid-error:0.065117
[182]	train-error:0.063288	valid-error:0.065144
[183]	train-error:0.06327	valid-error:0.065037
[184]	train-error:0.063217	valid-error:0.064876
[185]	train-error:0.063244	valid-error:0.06493
[186]	train-error:0.063181	valid-error:0.064876
[187]	train-error:0.063181	valid-error:0.064876
[188]	train-error:0.063145	valid-error:0.06485
[189]	train-error:0.063128	valid-error:0.06485
[190]	train-error:0.06319	valid-error:0.064876
[191]	train-error:0.063172	valid-error:0.064796
[192]	train-error:0.063154	valid-error:0.064823
[193]	train-error:0.063181	valid-error:0.06485
[194]	train-error:0.063172	valid-error:0.06485
[195]	train-error:0.063181	valid-error:0.064823
[196]	train-error:0.06319	valid-error:0.064823
[197]	train-error:0.063128	valid-error:0.06485
[198]	train-error:0.063092	valid-error:0.06485
[199]	train-error:0.063029	valid-error:0.064823
[200]	train-error:0.063065	valid-error:0.064823
[201]	train-error:0.06302	valid-error:0.06485
[202]	train-error:0.063012	valid-error:0.064823
[203]	train-error:0.062976	valid-error:0.06485
[204]	train-error:0.063012	valid-error:0.06485
[205]	train-error:0.062958	valid-error:0.064957
[206]	train-error:0.062931	valid-error:0.064903
[207]	train-error:0.062922	valid-error:0.064903
[208]	train-error:0.06294	valid-error:0.06493
[209]	train-error:0.062904	valid-error:0.064876
[210]	train-error:0.062869	valid-error:0.064903
[211]	train-error:0.062895	valid-error:0.06493
[212]	train-error:0.062869	valid-error:0.064957
[213]	train-error:0.062895	valid-error:0.06493
[214]	train-error:0.062851	valid-error:0.06493
[215]	train-error:0.062851	valid-error:0.06493
[216]	train-error:0.062824	valid-error:0.064876
[217]	train-error:0.062806	valid-error:0.064796
[218]	train-error:0.062753	valid-error:0.064796
[219]	train-error:0.062762	valid-error:0.064823
[220]	train-error:0.062735	valid-error:0.064769
[221]	train-error:0.062699	valid-error:0.064823
[222]	train-error:0.062717	valid-error:0.06485
[223]	train-error:0.06269	valid-error:0.064742
[224]	train-error:0.06269	valid-error:0.064742
[225]	train-error:0.062672	valid-error:0.064769
[226]	train-error:0.062646	valid-error:0.064769
[227]	train-error:0.062646	valid-error:0.064796
[228]	train-error:0.062637	valid-error:0.064769
[229]	train-error:0.062646	valid-error:0.064769
[230]	train-error:0.062646	valid-error:0.064769
[231]	train-error:0.062646	valid-error:0.064742
[232]	train-error:0.062655	valid-error:0.064742
[233]	train-error:0.062646	valid-error:0.064769
[234]	train-error:0.062655	valid-error:0.064769
[235]	train-error:0.062663	valid-error:0.064796
[236]	train-error:0.062637	valid-error:0.064796
[237]	train-error:0.06261	valid-error:0.064823
[238]	train-error:0.062619	valid-error:0.06485
[239]	train-error:0.062583	valid-error:0.064823
[240]	train-error:0.062574	valid-error:0.064716
[241]	train-error:0.062547	valid-error:0.064769
[242]	train-error:0.062574	valid-error:0.064742
[243]	train-error:0.062565	valid-error:0.064689
[244]	train-error:0.062583	valid-error:0.064689
[245]	train-error:0.062574	valid-error:0.064689
[246]	train-error:0.062565	valid-error:0.064716
[247]	train-error:0.062574	valid-error:0.064716
[248]	train-error:0.062538	valid-error:0.064689
[249]	train-error:0.062521	valid-error:0.064716
[250]	train-error:0.06253	valid-error:0.064662
[251]	train-error:0.06253	valid-error:0.064689
[252]	train-error:0.062476	valid-error:0.064662
[253]	train-error:0.062476	valid-error:0.064716
[254]	train-error:0.062503	valid-error:0.064716
[255]	train-error:0.062503	valid-error:0.064716
[256]	train-error:0.062521	valid-error:0.064635
[257]	train-error:0.062476	valid-error:0.064635
[258]	train-error:0.062485	valid-error:0.064635
[259]	train-error:0.062503	valid-error:0.064609
[260]	train-error:0.062449	valid-error:0.064475
[261]	train-error:0.062414	valid-error:0.064421
[262]	train-error:0.062414	valid-error:0.064421
[263]	train-error:0.062396	valid-error:0.064421
[264]	train-error:0.062378	valid-error:0.064448
[265]	train-error:0.062351	valid-error:0.064475
[266]	train-error:0.062342	valid-error:0.064448
[267]	train-error:0.062342	valid-error:0.064528
[268]	train-error:0.062333	valid-error:0.064528
[269]	train-error:0.062324	valid-error:0.064528
[270]	train-error:0.062306	valid-error:0.064501
[271]	train-error:0.062298	valid-error:0.064475
[272]	train-error:0.062306	valid-error:0.064528
[273]	train-error:0.06228	valid-error:0.064555
[274]	train-error:0.062289	valid-error:0.064609
[275]	train-error:0.062253	valid-error:0.064662
[276]	train-error:0.062271	valid-error:0.064609
[277]	train-error:0.062253	valid-error:0.064609
[278]	train-error:0.062235	valid-error:0.064609
[279]	train-error:0.062217	valid-error:0.064501
[280]	train-error:0.062226	valid-error:0.064555
[281]	train-error:0.062235	valid-error:0.064501
[282]	train-error:0.062226	valid-error:0.064448
[283]	train-error:0.062181	valid-error:0.064394
[284]	train-error:0.062199	valid-error:0.064448
[285]	train-error:0.062173	valid-error:0.064448
[286]	train-error:0.062146	valid-error:0.064421
[287]	train-error:0.062137	valid-error:0.064394
[288]	train-error:0.062155	valid-error:0.064394
[289]	train-error:0.062173	valid-error:0.064394
[290]	train-error:0.062164	valid-error:0.064421
[291]	train-error:0.062137	valid-error:0.064501
[292]	train-error:0.062146	valid-error:0.064555
[293]	train-error:0.062137	valid-error:0.064501
[294]	train-error:0.06211	valid-error:0.064528
[295]	train-error:0.062101	valid-error:0.064528
[296]	train-error:0.062092	valid-error:0.064475
[297]	train-error:0.062092	valid-error:0.064475
[298]	train-error:0.062083	valid-error:0.064448
[299]	train-error:0.062092	valid-error:0.064394
[300]	train-error:0.06203	valid-error:0.064528
[301]	train-error:0.061994	valid-error:0.064501
[302]	train-error:0.061994	valid-error:0.064475
[303]	train-error:0.062012	valid-error:0.064475
[304]	train-error:0.061985	valid-error:0.064475
[305]	train-error:0.062003	valid-error:0.064475
[306]	train-error:0.061941	valid-error:0.064421
[307]	train-error:0.061932	valid-error:0.064421
[308]	train-error:0.061923	valid-error:0.064421
[309]	train-error:0.061878	valid-error:0.064421
[310]	train-error:0.061869	valid-error:0.064421
[311]	train-error:0.061869	valid-error:0.064394
[312]	train-error:0.061878	valid-error:0.064368
[313]	train-error:0.061869	valid-error:0.064394
[314]	train-error:0.061869	valid-error:0.064421
[315]	train-error:0.061878	valid-error:0.064475
[316]	train-error:0.061851	valid-error:0.064475
[317]	train-error:0.061878	valid-error:0.064448
[318]	train-error:0.061869	valid-error:0.064394
[319]	train-error:0.061833	valid-error:0.064394
[320]	train-error:0.061789	valid-error:0.064314
[321]	train-error:0.061807	valid-error:0.064314
[322]	train-error:0.061807	valid-error:0.064314
[323]	train-error:0.061789	valid-error:0.064287
[324]	train-error:0.061789	valid-error:0.064314
[325]	train-error:0.061789	valid-error:0.064287
[326]	train-error:0.061798	valid-error:0.06426
[327]	train-error:0.061798	valid-error:0.06426
[328]	train-error:0.061798	valid-error:0.06426
[329]	train-error:0.061798	valid-error:0.064234
[330]	train-error:0.061789	valid-error:0.064234
[331]	train-error:0.061789	valid-error:0.06426
[332]	train-error:0.061798	valid-error:0.064314
[333]	train-error:0.061807	valid-error:0.064314
[334]	train-error:0.061816	valid-error:0.064341
[335]	train-error:0.061816	valid-error:0.064314
[336]	train-error:0.061824	valid-error:0.064287
[337]	train-error:0.061824	valid-error:0.064314
[338]	train-error:0.061833	valid-error:0.064314
[339]	train-error:0.061816	valid-error:0.064314
[340]	train-error:0.061816	valid-error:0.064234
[341]	train-error:0.061789	valid-error:0.06426
[342]	train-error:0.061771	valid-error:0.06426
[343]	train-error:0.06178	valid-error:0.064314
[344]	train-error:0.061798	valid-error:0.064287
[345]	train-error:0.061798	valid-error:0.06418
[346]	train-error:0.061744	valid-error:0.064207
[347]	train-error:0.061762	valid-error:0.064153
[348]	train-error:0.061762	valid-error:0.064153
[349]	train-error:0.061762	valid-error:0.064153
[350]	train-error:0.061771	valid-error:0.064234
[351]	train-error:0.061762	valid-error:0.064234
[352]	train-error:0.061744	valid-error:0.064234
[353]	train-error:0.06178	valid-error:0.064234
[354]	train-error:0.061744	valid-error:0.064234
[355]	train-error:0.061744	valid-error:0.06426
[356]	train-error:0.061753	valid-error:0.064287
[357]	train-error:0.061735	valid-error:0.064234
[358]	train-error:0.061744	valid-error:0.06426
[359]	train-error:0.061726	valid-error:0.06426
[360]	train-error:0.061691	valid-error:0.06426
[361]	train-error:0.0617	valid-error:0.06426
[362]	train-error:0.061691	valid-error:0.064287
[363]	train-error:0.061691	valid-error:0.064234
[364]	train-error:0.061691	valid-error:0.064234
[365]	train-error:0.061664	valid-error:0.064287
[366]	train-error:0.061673	valid-error:0.064287
[367]	train-error:0.061646	valid-error:0.064314
[368]	train-error:0.061646	valid-error:0.064314
[369]	train-error:0.061655	valid-error:0.064287
[370]	train-error:0.061646	valid-error:0.064314
[371]	train-error:0.061673	valid-error:0.064314
[372]	train-error:0.061682	valid-error:0.064314
[373]	train-error:0.061664	valid-error:0.064341
[374]	train-error:0.061682	valid-error:0.064368
[375]	train-error:0.061655	valid-error:0.064368
[376]	train-error:0.061637	valid-error:0.064368
[377]	train-error:0.061619	valid-error:0.064341
[378]	train-error:0.06161	valid-error:0.064368
[379]	train-error:0.061628	valid-error:0.064368
[380]	train-error:0.061619	valid-error:0.064368
[381]	train-error:0.061619	valid-error:0.064368
[382]	train-error:0.061637	valid-error:0.064341
[383]	train-error:0.061592	valid-error:0.064341
[384]	train-error:0.061592	valid-error:0.064341
[385]	train-error:0.061575	valid-error:0.06426
[386]	train-error:0.061584	valid-error:0.064287
[387]	train-error:0.061584	valid-error:0.064287
[388]	train-error:0.061592	valid-error:0.064234
[389]	train-error:0.061575	valid-error:0.06426
[390]	train-error:0.061539	valid-error:0.064234
[391]	train-error:0.061521	valid-error:0.06426
[392]	train-error:0.061521	valid-error:0.064234
[393]	train-error:0.06153	valid-error:0.064207
[394]	train-error:0.061539	valid-error:0.064207
[395]	train-error:0.061521	valid-error:0.064234
[396]	train-error:0.061485	valid-error:0.064287
[397]	train-error:0.061485	valid-error:0.064287
[398]	train-error:0.061485	valid-error:0.064287
[399]	train-error:0.061494	valid-error:0.064287
[400]	train-error:0.061485	valid-error:0.064287
[401]	train-error:0.061503	valid-error:0.064287
[402]	train-error:0.061494	valid-error:0.064287
[403]	train-error:0.061494	valid-error:0.064314
[404]	train-error:0.061512	valid-error:0.064314
[405]	train-error:0.061521	valid-error:0.064314
[406]	train-error:0.061503	valid-error:0.064341
[407]	train-error:0.061494	valid-error:0.064368
[408]	train-error:0.061476	valid-error:0.064368
[409]	train-error:0.061476	valid-error:0.064341
[410]	train-error:0.061476	valid-error:0.064341
[411]	train-error:0.061459	valid-error:0.064314
[412]	train-error:0.061423	valid-error:0.06426
[413]	train-error:0.061432	valid-error:0.064207
[414]	train-error:0.06145	valid-error:0.064207
[415]	train-error:0.061467	valid-error:0.064207
[416]	train-error:0.061459	valid-error:0.064207
[417]	train-error:0.061467	valid-error:0.064234
[418]	train-error:0.061459	valid-error:0.064234
[419]	train-error:0.061423	valid-error:0.064234
[420]	train-error:0.061432	valid-error:0.064234
[421]	train-error:0.06145	valid-error:0.06426
[422]	train-error:0.061441	valid-error:0.06426
[423]	train-error:0.061423	valid-error:0.06426
[424]	train-error:0.061441	valid-error:0.06426
[425]	train-error:0.061432	valid-error:0.064234
[426]	train-error:0.061432	valid-error:0.064234
[427]	train-error:0.061414	valid-error:0.064234
[428]	train-error:0.061432	valid-error:0.064234
[429]	train-error:0.061396	valid-error:0.064234
[430]	train-error:0.061423	valid-error:0.064234
[431]	train-error:0.061405	valid-error:0.06426
[432]	train-error:0.06136	valid-error:0.06426
[433]	train-error:0.061369	valid-error:0.06426
[434]	train-error:0.061396	valid-error:0.06426
[435]	train-error:0.061405	valid-error:0.06426
[436]	train-error:0.061405	valid-error:0.06426
[437]	train-error:0.061378	valid-error:0.064287
[438]	train-error:0.061369	valid-error:0.064314
[439]	train-error:0.061378	valid-error:0.064314
[440]	train-error:0.06136	valid-error:0.064314
[441]	train-error:0.061343	valid-error:0.064314
[442]	train-error:0.061325	valid-error:0.064287
[443]	train-error:0.061325	valid-error:0.064341
[444]	train-error:0.061307	valid-error:0.064314
[445]	train-error:0.061325	valid-error:0.064314
[446]	train-error:0.061325	valid-error:0.064314
[447]	train-error:0.061307	valid-error:0.064341
Stopping. Best iteration:
[347]	train-error:0.061762	valid-error:0.064153

time: 1min 59s

保存模型

model_xgb.dump_model('xgb_v1')

time: 206 ms

信用卡评估各特征重要性

xgb.plot_importance(model_xgb);

time: 559 ms

XGBOOST的树的可视化

xgb.to_graphviz(model_xgb)

time: 159 ms

预测预测借款人是否会预期

dtest = xgb.DMatrix(X_valid, feature_names=feature_name)
y_test = model_xgb.predict(dtest)
entry = pd.DataFrame()
entry['ID'] = np.arange(1, len(y_test)+1)
entry['Probability'] = y_test

time: 1.17 s

entry.to_csv('pred.csv', header=True, index=False)

time: 258 ms

四.总结

贷款人群年龄基本呈正态分布，30-40的贷款金额最多
20-30的人群是信用卡逾期的高发人群
信用卡和个人信贷额度的总余额，负债率，月收入是贷款人是否会逾期的最重要的三个因素
由于数据比较稀疏，在建模前酒醒了离散化处理，有利于建立强壮的模型

你可能感兴趣的:(数据分析,数据分析,数据挖掘)

最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
写完作业的感觉很爽乡村算卦师
今天终于一口气把一个数据分析课的作业写完了。明天还要继续写一个，写完，就可以暂时轻松一下了。想想还是很开心的，哈哈哈。刚出去跑了一圈，结果下雨了，虽然不是很大，可是没办法跑，怕下大。现在在小区门口，吹吹风，也是极好的。希望一些都变的越来越好，加油！
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Amazon广告投放：如何精准筛选并添加关键词？新置元人工智能亚马逊广告 amazon
在亚马逊广告投放领域，关键词的选择是影响广告效果的核心要素之一。一个精准的关键词策略不仅能够提升广告的曝光度，还能确保产品能够被真正的目标受众看到，从而实现更高的转化率。然而，关键词的筛选并不是一个简单的操作，它需要结合数据分析、市场趋势和消费者行为模式进行科学的规划。一、关键词筛选的必要性：为什么精准匹配如此重要？1.提升广告投放的精准度关键词的精准度决定了广告是否能够投放给真正有购买意愿的用户
【数据分析】抓包工具的定义常见类型分类使用场景及注意事项
抓包工具的定义常见类型分类使用场景及注意事项-CSDN直播抓包工具的定义常见类型分类使用场景及注意事项抓包工具的定义常见类型分类使用场景及注意事项抓包工具概述抓包工具顾名思义是一种用于捕获并分析网络数据包的软件或硬件工具它能够在数据传输过程中截取并记录网络流量让用户能够深入理解并排查网络问题这类工具的用途广泛从网络安全测试到应用程序调试都离不开抓包工具的帮助在众多的抓包工具中WiresharkFi
构建高效的物流车辆定位管理系统体制教科书
本文还有配套的精品资源，点击获取简介：物流车辆定位管理系统利用信息技术提高物流效率和安全性。通过集成GPS技术进行实时车辆追踪和监控，它提供及时的货物运送和异常处理。系统的关键技术包括GPS车辆定位、C#编程语言、数据库管理、车辆管理、在途情况监控、预警与通知、数据分析与报告、用户界面设计、安全性与隐私保护以及系统集成。这些要素共同保障物流流程的高效、安全和智能化。1.物流车辆定位管理系统的应用与
# 【GEE基础及工具）（一）】工欲善其事，必先利其器：借助Open Earth Engine实现影像高效处理及批量任务执行遥感AI实战 GEE基础教程遥感 GEE 地理信息信息可视化 sentinel
在遥感数据分析与处理工作中，海量影像数据的预处理（如去云、裁剪）和分析（如均值计算）是支撑后续研究的核心环节。而Sentinel-2影像作为常用的遥感数据源，常因云层遮挡、数据量大等问题增加处理难度。同时，在使用GoogleEarthEngine（GEE）处理数据时，“批量导出任务需手动逐个启动”的问题也会显著降低效率。本文将从“工具优化”和“数据处理”两个维度展开，详细介绍如何通过GEE完成Se
Navicat 全面支持金仓数据库 KingbaseES，为金仓生态圈注入新动能 Navicat中国 Navicat 17 焕新上市 Navicat 免费版数据库
近日，我们宣布Navicat系列产品全面支持中电科金仓（北京）科技股份有限公司旗下金仓数据库管理系统KingbaseES。KingbaseES是面向全行业、全客户关键应用的企业级大型通用融合数据库产品，适用于事务处理类应用、数据分析类应用、海量时序数据采集检索类应用、要求苛刻的互联网等应用场景。这次合作，不仅是Navicat在数据库管理领域的又一重要里程碑，更凭借卓越的技术为金仓数据库的生态注入新
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
如何用Python才能进行数据分析？_运用pycharm做数据分析的步骤 2401_84254530 python 数据分析 pycharm
数据分析流程Python是数据分析利器，掌握了Python的编程基础后，就可以逐渐进入数据分析。一个完整的数据分析项目大致可分为以下五个流程：数据获取→数据存储→数据预处理→建模与分析→可视化分析1)数据获取一般有数据分析师岗位需求的公司都会有自己的数据库，数据分析师可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sqlserver、mysql、orcale等主流数据库的接口
数据挖掘算法：KNN、SVM、决策树详解大力出奇迹985 数据挖掘算法支持向量机
本文将详细解析数据挖掘领域中常用的三种经典算法：KNN（K近邻算法）、SVM（支持向量机）和决策树。首先分别阐述每种算法的核心原理、实现步骤，再分析它们的优缺点及适用场景，最后对这三种算法进行综合对比与总结。通过本文，读者能全面了解这三种算法的特性，为实际数据挖掘任务中算法的选择提供参考，助力提升数据处理与分析的效率和准确性。在当今信息爆炸的时代，数据挖掘技术在各行各业发挥着至关重要的作用，而算法
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
有人考过CDA数据分析师二级吗？ cda2024 数据分析数据挖掘 mysql
一、引言在当今数字化浪潮席卷各个行业的时代，数据成为了最宝贵的资产之一。无论是金融、电信、零售还是其他传统行业，都在积极寻求能够从海量数据中挖掘价值的专业人才。“有人考过CDA数据分析师二级吗？”这个问题不仅反映了人们对提升自身数据技能的渴望，也折射出市场对高水平数据分析师的需求日益增长。今天，我们就来聊聊这个话题。二、CDA数据分析师二级概述（一）认证的重要性首先得明确，CDA数据分析师二级可不
Python爬虫实战：研究flanker相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 flanker
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信
Python数据分析第一课：Anaconda的安装使用二狗的编程之路 Python数据分析 python 数据分析开发语言
Python数据分析第一课：Anaconda的安装使用1.Anaconda是什么？Anaconda是一个便捷的获取包，并且对包和环境进行管理的虚拟环境工具,Anaconda包括了conda、Python在内的超过180多个包和依赖项简单来说，Anaconda是包管理器和环境管理器2.Anaconda从何而来？Anaconda包括了Python和conda，我们从这这两个部分来叙述PythonPyt
数据分析概念和总结小小少年Boy
参考：什么是数据分析？总结：决策=数据+分析数据分析的框架：明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈数据分析与数据挖掘，前者偏向于业务分析，后者偏向于数据库算法，借助数据来指导决策数据分析的框架1.首先是数据分析的目的性极强区别于数据挖掘的找关联、分类、聚类，数据分析更倾向于解决现实中的问题。我想解决什么问题？通过这次的分析能让我产生什么决策？比如是否在某个高校举办一场活动
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
【Python】pandas.cut()函数的用法
pandas.cut()函数是一个非常有用的工具，用于将数值型数据按照指定的分箱或区间进行分割，从而将连续的数值变量转换为离散的类别变量。这在数据分析和机器学习的特征工程中尤其有用，因为它可以帮助揭示不同区间内的数据分布特征，或者简化模型的输入。基本用法pandas.cut()的基本语法如下：pandas.cut(x,bins,right=True,labels=None,retbins=Fals
基于Python的酒店订单数据分析与可视化实战不若浮生一梦 python作业 python 数据分析开发语言
本文将通过一个酒店订单数据集，展示如何使用Python进行完整的数据分析流程，包括数据清洗、特征工程、探索性分析、可视化以及业务洞察，适合数据分析初学者或想通过项目提升数据思维的开发者。一、项目背景随着旅游业的迅速发展，酒店运营者越来越依赖数据分析来提升客户体验与优化收益管理。本项目基于某国际连锁酒店集团提供的真实订单数据，包含超过10万条记录，涵盖订单类型、顾客行为、取消情况等多个维度。目标是通
2025年最值得推荐的10款开源数据库管理工具全解析 ivwdcwso 运维与云原生开源数据库管理工具运维管理
在数据驱动的时代，数据库管理工具已成为开发者、数据分析师和运维工程师的必备利器。随着技术的快速发展，2025年的数据库管理工具市场涌现出许多强大而高效的开源解决方案。本文将为您详细介绍10款在2025年表现突出的开源数据库管理工具，帮助您选择最适合自己需求的工具。一、2025年数据库管理工具的新趋势在介绍具体工具前，让我们先了解2025年数据库管理工具的几个关键发展趋势：AI增强功能：越来越多的工
Python Pandas.cut函数解析与实战教程皓月照山川 pandas python pandas 开发语言
PythonPandas.cut函数解析与实战教程摘要pandas.cut是数据分析工具库Pandas中一个极其强大且常用的函数。它的核心功能是将连续的数值型数据根据指定的间断点（bins）进行分割，转换成离散化的区间类别（categoricaldata）。这种操作在数据预处理、特征工程和数据可视化中至关重要，例如，将用户的年龄分段、将考试分数评级、或将销售额划分为不同的等级。本文章将从基础用法到
实践篇：构建基于LLM与本地Pandas的混合式数据分析引擎超人阿亚 pandas 数据分析数据挖掘
公众号：dify实验室基于LLMOps平台-Dify的一站式学习平台。包含不限于：Dify工作流案例、DSL文件分享、模型接入、Dify交流讨论等各类资源分享。在上一篇《思路探索：当大型语言模型遇见数据分析的现实挑战》中，我们阐述了团队确立的技术路线：利用大型语言模型（LLM）作为自然语言到代码的“翻译器”，并结合PythonPandas库作为后端的高性能“计算核心”。本文将从工程实践的角度，详细
【tower】Rust tower库原理详解以及axum限流实战景天科技苑 Rust语言通关之路 rust 开发语言后端 tower rust tower axum限流
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Rust开发，Python全栈，Golang开发，云原生开发，PyQt5和Tkinter桌面开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文