个人贷款违约预测模型（逻辑回归）

1. 数据介绍

本案例所用数据来自一家银行的个人金融业务数据集，可以作为银行场景下进行个人客户业务分析和数据挖掘的示例。这份数据中涉及 5300 个银行客户的 100 万笔交易，而且涉及 700 份贷款信息与近 900 张信用卡的数据。通过分析这份数据可以获取与银行服务相关的业务知识。例如，对于提供增值服务的银行客户经理来说，希望明确哪些客户有更多的业务需求，而风险管理的业务人员可以及早发现贷款的潜在损失

（1）账户表（Accounts)：每条记录描述了一个账户（account_id）的静态信息，共 4500 条记录，如表 1-1 所示

表 1-1 账户表

名称	标签
account_id	账户号，主键
district_id	开户分行行政区号，外键
date	开户日期
frequency	结算频度（月，周，交易之后马上）

（2）顾客信息表（Clients）: 每条记录描述了一个客户（client_id）的特征信息，共5369 条记录，如表 1-2 所示

表 1-2 顾客信息表

名称	标签
client_id	客户号，主键
Sex	性别
birth_date	出生日期
district_id	地区号（客户所属地区），外键

（3）权限分配表（Disp）: 每条记录描述了顾客（client_id）和账号（account_id）之间的关系，以及客户操作账号的权限，共5369 条记录，如表 1-3 所示

表 1-3 权限分配表

名称	标签	说明
disp_id	权限设置号	主键
client_id	客户号	外键
account_id	账户号	外键
type	权限类型	分为“所有者”和“用户”，只用“所有者”身份可以进行增值业务操作和贷款

（4）支付订单表（Order）：每条记录代表一个支付命令，共 6471 条记录，如表 1-4 所示

表 1-4 支付订单表

名称	标签	说明
order_id	订单号	主键
account_id	发起订单的账户号	外键
bank_to	收款银行	银行名称用字母代替
account_to	收款账户号
amount	金额	单位/元
K_symbol	支付方式

（5）交易表（Trans）: 每条记录代表每个账户（account_id）上的一条交易，共1056320条记录，如表 1-5 所示

表 1-5 交易表

名称	标签
trans_id	交易序列号，主键
account_id	发起交易的账户号，外键
date	交易日期
type	借贷类型
operation	交易类型
amount	金额
balance	账户余额
K_symbol	交易特征
Bank	对方银行
account	对方账户号

（6）贷款表（Loans）: 每条记录代表某个账户（account_id）上的一条贷款信息，共 682 条记录，如表 1-6 所示

表 1-6 贷款表

名称	标签	说明
loan_id	贷款号	主键
account_id	账户号	外键
date	发放贷款日期
amount	贷款金额	单位/元
duration	贷款期限
payments	每月归还额	单位/元
status	还款状态	A 代表合同终止，没问题 B 代表合同终止，贷款没有支付 C 代表合同处于执行期，至今正常 D 代表合同处于执行期，为欠款状态

（7）信用卡（Cards）: 每条记录描述一个顾客号的信用卡信息，共 892 条记录，如表 1-7 所示

表 1-7 信用卡

名称	标签
card_id	信用卡ID，主键
disp_id	账户权限号，外键
type	卡类型
issued	发卡日期

（8）人口地区统计表（District）:每条记录了描述一个地区的人口统计学信息，共 77 条，如表 1-8 所示

表 1-8 人口地区统计表

名称	标签
A1-district_id	地区号，主键
GDP	GDP总量
A4	居住人口
A10	城镇人口比例
A11	平均工资
A12	1995年失业率
A13	1996年失业率
A14	1000人中有多少企业家
A15	1995年犯罪率（千人）
A16	1996年犯罪率（千人）

实际业务中的一个人可以拥有多个账户号（account_id), 一个账户号（account_id）可以对应多个顾客（client_id），即多个顾客共享一个账户号（account_id），但是每个账户号（account id）的所有者（即最高权限者）只能是一个人。账户号（account_id）与客户号（client id）的对应关系，在表 Disposition”中进行展示；表“Credit card”表述了银行提供给顾客（client_id）的服务，每个客户可以申请一张信用卡；贷款为基于账户的服务，一个账户（account_id）在一个时点最多只能有一笔贷款。

关系实体图（E-R 图）可以直观地描述表间关系，如图 1-1 所示。图中将每张表的主键与外键通过实线相连接，可以明确指导我们将表进行横向连接。比如要知道贷款客户的性别，就需要使用贷款表（Loan）中的 account_id 先与权限分配表（Disposition）中的 account id 连接，然后再拿 client_id 和客户表（Client）中的 client id 连接

2. 业务分析

在贷款审批方面，可以通过构建量化模型对客户的信用等级进行金管理方面，得知了每个账户的违约概率后，可以预估未来的坏账比例，及时做好资金安排。也可以对违约可能性较高的客户更加频繁地“关怀”，及时发现问题，以避免损失。在这个量化模型中，被解释变量为二分类变量，因此需要构建一个排序类分类模型。而排序类分类模型中最常使用的算法是逻辑回归

3. 数据理解

(1) 属性表征信息：在分析个人客户时，又称人口统计信息。主要涉及最基本的性别、出生日期等信息。这类指标对客户的行为预测并不具有因果关系，只是根据历史数据统计可得到一些规律。比如，随着客户年龄的提高，会对房贷、消费贷款、教育储蓄、个人理财等产品依次产生需求，但是年龄并不是对产品有需求的根本原因，其实婚龄才是其原因。只不过婚龄和年龄在同时期人群中是高度相关的。同理，性别和某种业务表现的高相关性，很多也来自于外部世界对性别类型的一种行为期望。对于银行、汽车 4S 店这类需要客户临柜填写表格的公司而言，是可以获取这方面的“真实”信息的，而对于电商而言，是难以获取“真实”信息的。但是电商的分析人员也不必气馁，其实“真实”这个概念是有很多内涵的，根据电商数据虽然不能知道客户人口学上的“真实”年龄，但是根据其消费行为完全可以刻画出其消费心理上的“真实”年龄，而后者在预测客户需求和行为方面更有效。

（2) 行为信息：行为是内部需求在外部特定环境下的一种表现。首先，行为是内部需求的结果。比如，活期存款的客户将手头的钱存起来，以应付不时之需的需求。其次，这必行为是在特定环境下表现出来的，在活期理财产品推出之前，活期存款是唯一的选择。对于银行而言，行为数据仅限于业务数据，而电信公司可以获取的行为数据更加广泛，不仅可以获取通话行为、上网行为等业务信息，还可以获取周末出行、业余生活等个人行为信息。获取的客户行为信息越多，对客户的了解越深入。在这方面，各类企业都具有很大的深挖潜力。由于行为数据均为详细记录，数量庞大，而建模数据是一个样本只能有一条记录，因此需要对行为数据依照 RFM 方法进行行为信息的提取，比如过去年的账户余额就是按照 “M” 计算得到的，这类变量称为一级衍生变量。这还不够，比如，要看账户余额是否有增长趋势，就要计算过去一年每月的平均账户余额，然后计算前后两月平均账户余额增长率的均值，这个变量就称为二级衍生变量。行为信息的提取可以按照 RFM 方法做到三级至四级衍生变量

(3) 状态信息：指客户的社会经济状态和社会网络关系。社会学认为，人之所以为特定的人，就在于其被固化在特定的关系之中，这被称为嵌入理论。了解客户的社会关系，就了解了外界对该客户的期望，进而推断出其需求。通过深入分析，甚至可以推断出客户未来的需求，达到比客户更了解客户的状态。在这方面，有些企业走在了前面，比如，电信企业通过通话和短信行为确定客户的交友圈，通过信号地理信息定位客户的工作、生活和休闲区域以此推测其工作类型和社交网络类型等。有些企业刚刚起步，只是通过客户住址大致下客户居住小区的档次，以确定其社会经济地位。这类信息是值得每个以客户为中心的企业花时间和精力去深挖的。

(4) 利益信息：如果可以知道客户的内在需求，这当然是最理想的，而这类数据获取方式是很匮乏的。传统方式只能通过市场调研、客户呼入或客户投诉得到相关数据。现在利用客服、微信公众号、微博、论坛等留言信息，可以便捷地获取客户评价信息。

以上构建变量的准则是放之四海而皆准的，而具体到违约预测这个主题，还需要更有针对性的分析。以往的研究认为，影响违约的主要因素有还款能力不足和还款意愿不足两个方面。还款意愿不足有可能是欲望大于能力、生活状态不稳定。以上是概念分析，之后就需要量化，比如使用“资产余额的变异系数”作为生活状态不稳定的代理指标。

在建模过程中，有预测价值的变量基本都是衍生变量，比如：

一级衍生，比如最近一年每月的资产余额均值来自于交易数据中每月的账户余额
二级衍生，比如年度资产余额的波动率来自于每月的资产余额均值
三级衍生，比如资产余额的变异系数来自于资产余额的波动率除以资产余额均值

4. 数据导入和清洗

根据上述的维度分析的框架创建建模使用的变量。不过我们不要期望可以创建全部四个维度的变量，一般创建前三个维度足矣。首先生成被解释主要方面。在贷款（loans）表中还款状态（status）变量记录了客户的贷款偿还情况，其中

A 代表合同终止且正常还款，
B 代表合同终止但是未还款，
C 代表合同未结東且正常还，
D 代客户贷款违约的概率表合同未结東但是已经拖欠贷款了

我们以此构造一个客户行为信用评级模型，以预测其他客户违约的概率

4.1 数据提取的提取窗口

我们分析的变量按照时间变化情况可以分为动态变量和静态变量

属性变量（比如性别、是否 90 后）一般是静态变量；
行为、状态和利益变量均属于动态变量

动态变量还可分为时点变量和区间变量

状态变量（比如当前账户余额、是否破产）和利益变量（对某产品的诉求）均属于时点变量；
行为变量（存款频次、平均账户余额的增长率）为区间变量

在建模过程中，需要按照图 4-1 所示的取数窗口提取变量。其中有两个重要的时间窗口——观察窗口和预测窗口

观察窗口是观测和收集供分析的自变量的时间段；
预测窗口是观测因变量变化的时间段，如果在这个时间段中出现显性状态（比如出现贷款拖欠）则将被解释变量设置为“1”，如果始终没有出现，则被解释变量设置为“0”

模型框架

根据户基本信息、业务信息、状态信息
预估履约期内贷款客户未来一段时间内发生违约的可能

取数窗口期的长短和模型易用性是一对矛盾体：窗口期越短，缺失值越少，可分析的样本就越多、越便于使用。但是区间变量中单个变量的观测期越短，数据越不稳定，这样难以获得稳健的参数。但是取数窗口期越长，新的客户就会因为变量缺失而无法纳入研究样本。因此取数窗口的长短是需要根据建模面临的任务灵活调整的。本案例中的观测窗口定为一年

同样，预测窗口可长可短，取决于构建什么样的模型，以及目标变量是什么。比如营销响应模型，预测窗口取三天至一周就足够了；而信用卡信用违约模型，须要观测一年的时间。通常，越长的预测窗口样本量越少。而预测窗口过短则会导致有些样本的被解释变量的最终状态还没有表现出来。本文没有严格按照信用评级模型的取数窗口进行设置，需要深人学习的读者请参考《信用风险评分卡研究：基于 SAS 的开发与实施》

4.2 导入数据

利用pandas导入可用于建模的样本数据，利用loan表生成被解释的变量

import pandas as pd
import numpy as np
import os

loanfile = os.listdir()
createVar = locals()
for i in loanfile:
  if i.endswith("csv"):
        createVar[i.split('.')[0]]=pd.read_csv(i,encoding='gbk')
        print(i.split('.')[0])

创建被解释变量

bad_good={'B':1, 'D':1, 'A':0, 'C': 2}
loans['bad_good']=loans.status.map(bad_good)
loans.head()

表 4-1 贷款表

	loan_id	account_id	date	amount	duration	payments	status	bad_good
0	5314	1787	1993-07-05	96396	12	8033	B	1
1	5316	1801	1993-07-11	165960	36	4610	A	0
2	6863	9188	1993-07-28	127080	60	2118	A	0
3	5325	1843	1993-08-03	105804	36	2939	A	0
4	7240 1	1013	1993-09-06	274740	60	4579	A	0

4.3 表征信息

将所有维度的信息归结到贷款表（LOANS）上，每个贷款账户只有一条记录。寻找有预测能力的指标。首先是寻找客户表征信息，如性别、年龄。客户的人口信息保存在客户信息表（CIENTS）中，但是该表是以客户为主键的，需要和权限分配表（DISP）相连接才可以获得账号级别的信息

data2=pd.merge(loans,disp,on='account_id',how='left')
data2=pd.merge(data2,clients,on='client_id',how='left')
data2=data2[data2.type=='所有者']
data2.head()

4.4 状态信息

提取借款人居住地情况，如居住地失业率等变量。与 district 表进行连接

data3 = pd.merge(data2, district, 
                 left_on = 'district_id', 
                 right_on = 'A1', 
                 how = 'left')
data3.head()

4.5 行为信息

根据客户的账户变动的行为信息，考察借款人还款能力，如账户平均余额、余额的标准差、变异系数、平均入账和平均支出的比例、存贷比等

首先将贷款表和交易表按照 account_id 内连接

data_4temp1=pd.merge(loans[['account_id','date']],
                     trans[['account_id','type','amount','balance','date']],
                     on='account_id')
                     
data_4temp1.columns=['account_id','date','type','amount','balance','t_date']

data_4temp1=data_4temp1.sort_values(by=['account_id','t_date'])

然后将来自贷款表和交易表中的两个字符串类型的日期变量转换为日期，为窗口取数做准备

data_4temp1['date']=pd.to_datetime(data_4temp1['date'])

data_4temp1['t_date']=pd.to_datetime(data_4temp1['t_date'])

账户余额和交易额度为字符变量，有千分位符，需要进行数据清洗，并转换为数值类型

data_4temp1['balance2']=data_4temp1['balance'].map(lambda x:int(''.join(x[1:].split(','))))

data_4temp1['amount2']=data_4temp1['amount'].map(lambda x:int(''.join(x[1:].split(','))))

现对窗口进行取数据，只保留贷款日期前365天至贷款前1天的交易数据

import datetime

data_4temp2=data_4temp1[data_4temp1.date>data_4temp1.t_date][data_4temp1.date<data_4temp1.t_date+datetime.timedelta(days=365)]

data_4temp2.head()

计算每个贷款账户贷款前一年的平均账户余额（财富水平），账户余额的标准差（代表财富稳定情况）和变异系数（代表财富稳定情况的另一指标）

data_4temp3=data_4temp2.groupby('account_id')['balance2'].agg([('avg_balance','mean'),('stdev_balance','std')])

data_4temp3['cv_balance']=data_4temp3[['avg_balance','stdev_balance']].apply(lambda x:x[1]/x[0],axis=1)

计算平均入账和平均支出的比例。首先以上一步时间窗口取数得到的数据集为基础，对每一个账户“借-贷”类型进行交易金额汇总

type_dict={'借':'out','贷':'income'}
data_4temp2['type1']=data_4temp2.type.map(type_dict)
data_4temp4=data_4temp2.groupby(['account_id','type1'])[['amount2']].sum()
data_4temp4.head(2)

对于上一步汇总后的数据，每个账户会有两条记录，需要对其进行拆分列操作，将每个账户的两条观测转换为每个账户一条观测。以下语句中pd.pivot_table函数进行堆叠列

data_4temp5=pd.pivot_table(data_4temp4,values='amount2',index='account_id',columns='type1')
data_4temp5.fillna(0,inplace=True)
data_4temp5['r_out_in']=data_4temp5[['out','income']].apply(lambda x:x[0]/x[1],axis=1)
data_4temp5.head(2)

以下语句讲分别计算的平均账户余额，账户余额的标准差、变异系数、平均入账和平均支出的比例等变量与之前的 data3 数据合并

data4=pd.merge(data3,data_4temp3,left_on='account_id',right_index=True,how='left')
data4=pd.merge(data4,data_4temp5,left_on='account_id',right_index=True,how='left')

最后计算存贷比、贷收比

data4['r_lb']=data4[['amount','avg_balance']].apply(lambda x:x[0]/x[1],axis=1)
data4['r_lincome']=data4[['amount','income']].apply(lambda x:x[0]/x[1],axis=1)

5. 建立分析模型

这部分是从信息中获取知识的过程。数据挖掘的方法分为分类和描述两大类，其中预测账户的违约情况属于分类模型。使用逻辑回归为刚才创建的数据建模

5.1 样本抽样

提取状态为C的样本用于预测。其他样本随机抽样，建立训练集与测试集：

data_model=data4[data4.status!='C']
for_predict=data4[data4.status=='C']

train=data_model.sample(frac=0.7,random_state=1235).copy()
test=data_model[~data_model.index.isin(train.index)].copy()
print('训练集样本量：%i\n测试集样本量：%i'%(len(train),len(test)))

训练集样本量：195
测试集样本量：84

5.2 向前逐步法

使用向前逐步法进行逻辑回归建模

import statsmodels.formula.api as smf
import statsmodels.api as sm
def forward_select(data, response):
    import statsmodels.api as sm
    import statsmodels.formula.api as smf
    remaining = set(data.columns)
    remaining.remove(response)
    selected = []
    current_score, best_new_score = float('inf'), float('inf')
    while remaining:
        aic_with_candidates=[]
        for candidate in remaining:
            formula = "{} ~ {}".format(
                response,' + '.join(selected + [candidate]))
            aic = smf.glm(
                formula=formula, data=data, 
                family=sm.families.Binomial(sm.families.links.logit)
            ).fit().aic
            aic_with_candidates.append((aic, candidate))
        aic_with_candidates.sort(reverse=True)
        best_new_score, best_candidate=aic_with_candidates.pop()
        if current_score > best_new_score: 
            remaining.remove(best_candidate)
            selected.append(best_candidate)
            current_score = best_new_score
            print ('aic is {},continuing!'.format(current_score))
        else:        
            print ('forward selection over!')
            break
            
    formula = "{} ~ {} ".format(response,' + '.join(selected))
    print('final formula is {}'.format(formula))
    model = smf.glm(
        formula=formula, data=data, 
        family=sm.families.Binomial(sm.families.links.logit)
    ).fit()
    return(model)

candidates=['bad_good','A1','GDP','A4','A10','A11','A12','amount','duration',
            'A13','A14','A15','a16','avg_balance','stdev_balance','cv_balance',
            'income','out','r_out_in','r_lb','r_lincome']

data_for_select=train[candidates]

lg_m1=forward_select(data=data_for_select,response='bad_good')
lg_m1.summary().tables[1]

表 5-1 逻辑回归的变量系数表

	coef	std err	z	$P > z$	[0.025	0.975]
Intercept	-7.2409	1.416	-5.115	0.000	-10.016	-4.466
cv_balance	10.7670	2.175	4.951	0.000	6.505	15.029
duration	0.0462	0.021	2.239	0.025	0.006	0.087
r_lb	0.2998	0.106	2.831	0.005	0.092	0.507
A10	-0.0193	0.012	-1.586	0.113	-0.043	0.005

通过以上语句得到相关结果，表 5-1 列出逻辑回归的模型参数，其中申请贷款前一年的存贷比（r_lb），变异系数（cv_balance），贷款期限（duration）与违约正相关，城镇人口比例（A10）与违约负相关

5.3 模型效果评估

以下使用测试数据进行模型效果评估。此时调用了 scikit-learn 的评估模块绘制 $R O C$ 曲线

import sklearn.metrics as metrics
import matplotlib.pyplot as plt
fpr, tpr, th = metrics.roc_curve(test.bad_good, lg_m1.predict(test))
plt.figure(figsize=[6, 6])
plt.plot(fpr, tpr, 'b--')
plt.title('ROC curve')
plt.show()

print('AUC = %.4f' %metrics.auc(fpr, tpr))

图 5-1 模型的ROC曲线

可以看到模型的ROC曲线非常接近左上角，其曲线下面积（AUC）为 0.8689，这说明模型的排序能力很强

6. 模型应用

在这个案例中，贷款状态为 C 的账户是尚没有出现违约且合同未到期的客户。这些贷款客户中有些人的违约可能性较高，需要业务人员重点关注。一发现问题时，可以及时处理挽回损失。可以通过以下语句得到每笔贷款的违约概率

for_predict['prob']=lg_m1.predict(for_predict)
for_predict[['account_id','prob']].head()

表 6-1预测的违约概率

	account_id	prob
23	1071	0.900833
30	5313	0.914699
38	10079	0.502645
39	5385	0.477389
42	8321	0.117526

输出结果见表 6-1 。这里需要强调的是，此处的概率仅是代表违约可能性的相对值，并业务人员知道哪些客户为重点关注的即可。不代表其真实违约概率。比如预测概率为 0.90 的违约可能性高于 0.47, 这已经足够了，因为业务人员知道哪些客户为重点关注即可

7. 流程回顾

案例的建模流程。本案例中，我们遵照数据挖掘项目通用的流程 CRISP-DM 进行建模。最后回顾一下本案例的建模流程

(1) 业务分析：需要构建一个分类模型预测每个客户的违约概率，其实是对客户的信用进行一个排序。分类模型有很多种，其中逻辑回归是最常用到的。

(2) 数据解读：从业务需求出发，了解、熟悉现有的数据结构、数据质量等信息。主要寻找对客户违约成本、还款意愿、还款能力（资产规模和稳定性）有代表意义的变量。

(3) 数据准备：结合数据的内在价值与业务分析，提 I 取各类有价值的信息，构建被解释变量和解释变量。

(4) 模型构建与评价：该步骤按照 SEMMA 标准算法，分为数据采样、变量分布探索、修改变量、构建逻辑回归、评价模型的优劣。

(5) 模型监控：当模型上线后，对模型的表现进行长期监控，主要检验模型预测准确性与数据的稳定性。

在实际的工作中，上面提供流程的第 1~3 步并不一定一次性做好，很多时候这部分需要反复验证、反复解读。因为我们往往需要多次分析审核，所以可以较好地理解拿到的数据并且能够识别出数据中的异常或错误的内容。而此部分若纳人了错误的数据，则会导致后面的步骤，如建模等工作完全没有意义

8. 附录

本文设计案例来自《Python数据科学—技术详解与商业实践》书中的第19章
本文涉及到的数据可以从这里下载
文中 5.1 节样本抽样方法会导致较差的模型稳定性，可以尝试过抽样，分层抽样等方法

你可能感兴趣的:(python,逻辑回归)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
python的while双重循环九九乘法表 Jinm_R python 开发语言
a=1whilea<=9:b=1#乘数每次需要从1开始whileb<=a:print(f"{a}*{b}={a*b}\t",end='')#\t为制表符使乘法表整齐end=''代表用空格代替换行b+=1a+=1print()#乘数每加一换行
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
Python自动化测试web常见框架汇总自动化测试薰儿软件测试技术分享 python 前端开发语言
1、前言目前，有非常多的Python框架，用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来，使得构建应用的时候可以更快捷，也不用去关注一些细节（例如socket和协议），所以需要的都在框架里了。接下来我们会介绍不同的选项。经过初期的不起眼，Python已经成为互联网最流行的服务端编程语言之一。根据W3Techs的统计，它被用于很多的大流量的站点很多的大流量的站点很多的大流量的站点，超
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
Windows如何安装poppler库，python的PDF转PPTX项目跨不过 pdf
资源库在这里下载https://github.com/oschwartz10612/poppler-windows/releases/tag/v21.03.0其他的参考这篇博客，里面提到的资源链接失效了https://blog.csdn.net/wy01415/article/details/110257130
用Python批量更改图片大小马达马达达 AI python
#提取目录下所有图片,更改尺寸后保存到另一目录fromPILimportImageimportos.pathimportglobdefconvertjpg(jpgfile,outdir,width=128,height=128):img=Image.open(jpgfile)try:new_img=img.resize((width,height),Image.BILINEAR)new_img.s
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
SWIFT环境配置及大模型微调实践 weixin_43870390 swift 开发语言 ios
SWIFT环境配置及大模型微调实践SWIFT环境配置基础配置增量配置SWIFTQwen_audio_chat大模型微调实践问题1:问题2:问题定位解决方法手动安装pytorchSWIFT介绍参考：这里SWIFT环境配置基础配置condacreate-nswiftpython=3.8pipinstallms-swift[all]-U#下载项目gitclonehttps://github.com/mo
【Python】 Python脚本实现某平台视频流下载音乐学家方大刚 Python 爬虫 python chrome 开发语言
亲爱的玛丽我会想念着你我是多么的讨厌分离加油站旁的海鸥机场路上的松柏挥挥手眼泪就落下来我多想和那些光阴永远住下来我不能我不能赵雷《玛丽》在视频内容的分发上，m3u8格式的视频流越来越常见。它将视频切分成多个小片段（TS文件），然后通过索引文件（m3u8文件）来组织播放顺序，有效地支持了视频的流式传输。这篇博客将引导您使用Python脚本来下载m3u8格式的视频流，并将其合并成一个单一的视频文件。准
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，