python机器学习建模

python风控建模实战（分类器模型+回归模型）

在全球数字经济时代，有一种金融优势，那就是基于消费者大数据的纯信用！

我们不妨称之为数据信用，它是一种面向未来的财产权，它是数字货币背后核心的抵押资产，它决定了数字货币时代信用创造的方向、速度和规模。一句话，谁掌握了数据信用，谁就控制了数字货币的发行权！数据信用判断依靠的就是金融风控模型。

数据信用判断依靠的就是金融风控模型。更准确的说谁能掌握风控模型知识，谁就掌握了数字货币的发行权！

欢迎各位同学学习：

欢迎各位同学学习python风控建模实战lendingClub，链接地址为https://edu.csdn.net/course/detail/30742

之前博主录制《python信用模型建模（附代码）》课程是针对逻辑回归模型模型；《python风控建模实战lendingClub》此课程是针对集成树模型，包括catboost，lightgbm，xgboost。两个课程算法原理是不同的。

此课程catboost集成树算法有诸多优点，自动化处理缺失数据，自动化调参，无需变量卡方分箱。学员学完后不再为数据预处理，调参，变量分箱而烦恼。此教程建立模型性能卓越，最高性能ks:0.5869,AUC:0.87135，远超互联网上其它建模人员性能。

（lendingclub分类器模型数据下载地址）

（移动杯消费金融回归模型百万奖金挑战赛数据下载地址）

课程目录

章节1 python编程环境搭建
课时1风控建模语言，python，R，SAS优劣对比
课时2Anaconda快速入门指南
课时3Anaconda下载安装
课时4canopy下载和安装
课时5Anaconda Navigator导航器05:38
课时6python第三方包安装(pip和conda install)
课时7Python非官方扩展包下载地址
课时8Anaconda安装不同版本python
课时9为什么使用jupyter notebook及如何安装
课时10如何用jupyter notebook打开指定文件夹内容？
课时11jupyter基本文本编辑操作
课时12jupyter生成在线PPT汇报文档
课时13jupyter notebook用matplotlib不显示图片解决方案

章节2 python编程基础
课时14Python文件基本操作
课时15python官网
课时16变量_表达式_运算符_值
课时17字符串string
课时18列表list
课时19程序的基本构架（条件，循环）
课时20数据类型_函数_面向对象编程
课时21python2和3区别
课时22编程技巧和学习方法

章节3 python机器学习基础知识
课时23UCI机器学习数据库介绍
课时24机器学习书籍推荐
课时25如何选择算法
课时26sklearn机器学习算法速查表
课时27python数据科学常用的库
课时28python数据科学入门介绍（选修）

章节4 lendingClub业务介绍（P2P鼻祖）
课时29lendingClub业务简介
课时30lendingclub债务危机及深层次时代背景
课时31lendingClub官网数据下载(或本集参考资料下载)

章节5catboost基础介绍
课时32catboost基础知识讲解-比xgboost更优算法登场
课时33catboost官网介绍

章节6 lengding Club实战_catboost分类器模型
课时34数据清洗和首次变量筛选
课时35catboost第三方包下载和安装
课时36import导入建模的包
课时37读取数据和描述性统计
课时38train，test训练和测试数据划分
课时39fit训练模型
课时40模型验证概述
课时41树模型需要相关性检验吗？
课时42交叉验证cross validation
课时43混淆矩阵理论概述，accuracy，sensitivity，precision，F1分数
课时44混淆矩阵python脚本实现
课时45计算模型ks(Kolmogorov-Smirnoff)
课时46catboost1_建模脚本连贯讲解
课时47catboost2_第二次变量筛选
课时48catboost3_分类变量cat_features使用

章节7KS（Kolmogorov–Smirnov）模型区分能力指标
课时49KS简介
课时50step1获取模型分
课时51step2_计算ks_方法1
课时52step3_计算ks_方法2
课时53step4_计算ks_excel推理
课时54step5_绘制KS图
课时55step6_KS评估函数
课时56step7_KS脚本汇总_分治算法
课时57step8_KS缺陷

章节8AUC（Area Under Curve）模型区分能力指标

课时58 ROC基本含义
课时58excel绘制ROC曲
课时59python计算AUC很简单
课时60python轻松绘制ROC曲线
课时61AUC评估函数_AUC多大才算好？
课时62Gini基尼系数基本概念和AUC关系

章节9pickle保存模型
课时63pickle保存和导入模型包_避免重复训练模型时间

章节10PSI模型稳定性评估指标（上）
课时64拿破仑和希特勒征服欧洲为何失败？数学PSI指标揭露历史真相
课时65excel手把手教你推导PSI的计算公式
课时66PSI计算公式奥义
课时67PSI的python脚本讲解

章节11PSI模型稳定性评估指标（下）
课时68step1.筛选lendingClub2018年Q3和Q4数据
课时69step2_计算train，test，oot模型分
课时70step3.计算Q3和Q4模型分PSI

章节12模型维度与边际效应
课时71边际效应基本概念
课时72模型维度与边际效应,变量越多越好吗？
课时73降维实操，结果让人吃惊！
课时74模型变量数量越多，区分能力（ks）越高吗？

章节13catboost分类变量处理
课时75 One-hot encoding热编码
课时76 cat_features分类变量处理（数值型）1
课时77 cat_features分类变量处理（字符串类型）
课时78 不同分类变量处理方法的结果对比

章节14catboost调参
课时79GridSearchCV网格调参简述
课时80iterations树的颗树
课时81eval_metric评估参数（logloss_AUC_Accuracy_F1_Recall）
课时82learning_rate学习率
课时83树深度depth（max_depth）
课时84 l2_leaf_reg正则系数L2调参

章节15多算法比较
课时85xgboost分类器模型
课时86lightgbm分类器建模
课时87逻辑回归分类器和多算法比较结果

章节16消费者信用评分实战_回归模型
课时88机器学习回归竞赛_一百万奖金挑战
课时89线性回归基础知识（最小二乘法OLS）
课时90梯度下降法gradient descent
课时91误差error_偏差bias_方差variance
课时92shrinkage特征缩减技术_正则化
课时93ridge岭回归_lasso回归_elasticNetwork弹性网络
课时94sklearn_ridge岭回归脚本
课时95逻辑回归_regression脚本
课时96支持向量回归SVR脚本
课时97随机森林randomForest回归脚本
课时98xgboost regression回归脚本
课时99catboost regressor回归脚本
课时100lightgbm基础知识讲解
课时101lightgbm regressor回归脚本
课时102sequencial线性模型回归预测脚本

为什么需要风控模型？

风控模型目的将银行风险最小化并将利润最大化。贷款有风险，如果用户借钱不还或故意骗贷，银行就会有损失。风控模型作用就是识别这些借钱不还用户，然后过滤掉这些坏用户。这样银行放款对象基本是优质客户，可以从中赚取利息，从而达到利润最大化，风险最小化。

为了从银行的角度将损失降到最低，银行需要制定决策规则，确定谁批准贷款，谁不批准。在决定贷款申请之前，贷款经理会考虑申请人的人口统计和社会经济概况。

风控历史

世界上最早的银行出现在意大利。最早的银行是意大利1407年在威尼斯成立的银行。当然类似于银行的机构可能存更早存在。只要有银行，就会有风险控制和管理，即风控。早期风控包括对借贷人资质审核和账户核实。

随着金融业发展，贷款流程逐渐完善，包括下图流程

2000-2008后，全球逐步进入大数据时代，随着用户数据整合，诞生央行征信，公安人脸数据，芝麻信用分，同盾分，聚信立蜜罐分，百度黑中介分等参考数据。银行，消费金融公司，小额贷公司可以利用大数据建模，利用机器智能决策代替绝大部分人工审核，缩短信贷流程，减少贷款风险，实现利润最大化。

现代大数据时代的风控部门主要分为贷前，贷中和贷后管理三个板块。

信用逾期高发时代

随着我国居民消费心理发生改变和各大商家诱导性消费，不少朋友越来越依赖超前消费了。我国14亿人口，消费群体庞大，各类产品也有着很大的市场，于是现在的消费信贷市场成了很多银行或者其他机构发力的方向。根据央行公布的数据来看，商业银行发行的信用卡数量继续扩张，但在“滥发”信用卡的背后，逾期坏账不断增加也成了银行头疼问题。

信用卡逾期半年以上坏账突破900亿

近日，央行公布了三季度支付体系的运行报告，从央行公布的数据来看，我国商业银行发行的信用卡数量、授信总额以及坏账总额均在保持增长。

数据显示，截至今年三季度末，我国商业银行发行的信用卡（包括借贷合一卡）的数量达到了7.66亿张，环比增加1.29%。总授信额度达到了18.59万亿元，环比增加3.80%。

下卡量在增加，加上授信总额在不断增长，说明银行依旧非常重视信用卡市场，但同时这也给银行带来了不小的麻烦。因为截至今年三季度末，信用卡逾期半年以上的坏账来到了906.63亿元，环比大涨6.13%。

信用卡下卡数量不断增加，说明在初审阶段银行并没有管理的太严格，因此坏账增加是客观会存在的问题。但作为专业的金融机构，银行显然是不会坐视坏账继续涨下去，不然就会影响到银行的正常经营，也会引起监管层的注意。

所以在这种情况下面，商业银行会对已经下卡的客户进行管理，一般是在消费场景以及防范套现上面下功夫。所以为了你不被银行二次风控，从而对你的信用卡封卡降额，一些不合规的刷卡消费最好还是别碰。

银行风控负责人改如何应对持续上升信用卡坏账？作者认为识别坏客户（骗贷和还款能力不足人群）是关键。只有银行精准识别了坏客户，才能显著降低逾期和坏账率。

之前银行是当铺思想，把钱借给有偿还能力的人。这些人群算是优质客群。更糟糕的是但随着量化宽松，财政货币刺激，M2激增，银行，消费金融公司，小额贷公司纷纷把市场目标扩大到次级客户，即偿还能力不足或没有工作的人，这些人还钱风险很高，因此借钱利息也很高。

国内黑产，灰产已经形成庞大产业链条。根据之前同盾公司统计，黑产团队至少上千个，多大为3人左右小团队，100人以上大团队也有几十上百个。这些黑产团队天天测试各大现金贷平台漏洞，可谓专业产品经理。下图是生产虚假号码的手机卡，来自东南亚，国内可用，可最大程度规避国内安全监控，专门为线上平台现金贷诈骗用户准备。如果没有风控能力，就不要玩现金贷这行了。放款犹如肉包打狗有去无回。

举个身边熟悉例子，作者在之前某宝关键词搜索中，可以发现黑产和灰产身影。

关键词：

注册机，短信服务，短信接收，短信验证，app下单，智能终端代接m

黑产市场风起云涌，银行风控负责人改如何应对持续上升信用卡坏账？作者认为识别坏客户（骗贷和还款能力不足人群）是关键。只有银行精准识别了坏客户，才能显著降低逾期和坏账率。如何精准识别坏客户，改课程会手把手教你大家Python信用模型模型，精准捕捉坏客户，此乃风控守护神。

金融风控审批模型可以成为贷款人和借款人计算借款人偿债能力的绝佳工具。对于贷方而言，模型可以帮助他们评估借款人的风险，识别是否是骗贷用户或还款能力不足用户，并帮公司维持健康的投资组合 - 这最终将影响整个经济。

模型就像一个黑箱，当用户申请贷款时，模型会根据用户信息，例如年龄，工作，职位，还款记录，借贷次数等维度自动计算客户坏客户概率。业务线如果用模型计算出某用户坏客户概率较高，例如0.8，就会拒绝改客户贷款申请。

因此风控模型就像信贷守护神，保护公司资产，免受黑产吞噬。模型模型自动化评分，1秒之内决定客户是否通过，贷前人员工作轻松多了！这样，大数据时代下的风控模型就此诞生。

（模型模型自动批量识别坏客户）

第78课，模型训练截图

模型最高性能，ks:0.5869,AUC:0.87135，远超互联网上其它建模人员性能。

模型降维测试

模型调参测试

接下来，我们展示一下部分python脚本建模和数据分析代码

在课程中，我将研究Lending Club贷款数据，该数据不平衡，大且具有具有不同数据类型的多个功能。为了进行建模，我将所有违约贷款作为目标变量，并试图预测贷款是否会违约。

导入数据
首先，导入必要的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
import warnings
import gc
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=DeprecationWarning)
%matplotlib inline

导入数据

start_df = pd.read_csv('../input/loan.csv', low_memory=False)

处理数据的副本，这样我就不必为了节省内存而再次重新读取整个数据集。

df = start_df.copy(deep=True)
df.head()

id	member_id	loan_amnt	funded_amnt	funded_amnt_inv	term	int_rate	installment	grade	sub_grade	...	total_bal_il	il_util	open_rv_12m	open_rv_24m	max_bal_bc	all_util	total_rev_hi_lim	inq_fi	total_cu_tl	inq_last_12m
0	1077501	1296599	5000.0	5000.0	4975.0	36 months	10.65	162.87	B	B2	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
1	1077430	1314167	2500.0	2500.0	2500.0	60 months	15.27	59.83	C	C4	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2	1077175	1313524	2400.0	2400.0	2400.0	36 months	15.96	84.33	C	C5	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
3	1076863	1277178	10000.0	10000.0	10000.0	36 months	13.49	339.31	C	C1	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
4	1075358	1311748	3000.0	3000.0	3000.0	60 months	12.69	67.79	B	B5	...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

检查数据维度

因此，我们得到很多变量。知道这些变量的含义可以在以后的建模和数据分析中提供很多帮助。

了解数据
首先，让我们检查数据集中各个列字段的描述。

1 2	`df_description` `=` `pd.read_excel('../input/LCDataDictionary.xlsx').dropna()` `df_description.style.set_properties(subset=['Description'],` `**{'width':` `'1000px'})`

LoanStatNew	Description
0	addr_state	The state provided by the borrower in the loan application
1	annual_inc	The self-reported annual income provided by the borrower during registration.
2	annual_inc_joint	The combined self-reported annual income provided by the co-borrowers during registration
3	application_type	Indicates whether the loan is an individual application or a joint application with two co-borrowers
4	collection_recovery_fee	post charge off collection fee
5	collections_12_mths_ex_med	Number of collections in 12 months excluding medical collections
6	delinq_2yrs	The number of 30+ days past-due incidences of delinquency in the borrower's credit file for the past 2 years
7	desc	Loan description provided by the borrower
8	dti	A ratio calculated using the borrower’s total monthly debt payments on the total debt obligations, excluding mortgage and the requested LC loan, divided by the borrower’s self-reported monthly income.
9	dti_joint	A ratio calculated using the co-borrowers' total monthly payments on the total debt obligations, excluding mortgages and the requested LC loan, divided by the co-borrowers' combined self-reported monthly income
10	earliest_cr_line	The month the borrower's earliest reported credit line was opened
11	emp_length	Employment length in years. Possible values are between 0 and 10 where 0 means less than one year and 10 means ten or more years.
12	emp_title	The job title supplied by the Borrower when applying for the loan.*
13	fico_range_high	The upper boundary range the borrower’s FICO at loan origination belongs to.
14	fico_range_low	The lower boundary range the borrower’s FICO at loan origination belongs to.
15	funded_amnt	The total amount committed to that loan at that point in time.
16	funded_amnt_inv	The total amount committed by investors for that loan at that point in time.
17	grade	LC assigned loan grade
18	home_ownership	The home ownership status provided by the borrower during registration. Our values are: RENT, OWN, MORTGAGE, OTHER.
19	id	A unique LC assigned ID for the loan listing.
20	initial_list_status	The initial listing status of the loan. Possible values are – W, F
21	inq_last_6mths	The number of inquiries in past 6 months (excluding auto and mortgage inquiries)
22	installment	The monthly payment owed by the borrower if the loan originates.
23	int_rate	Interest Rate on the loan
24	is_inc_v	Indicates if income was verified by LC, not verified, or if the income source was verified
25	issue_d	The month which the loan was funded
26	last_credit_pull_d	The most recent month LC pulled credit for this loan
27	last_fico_range_high	The upper boundary range the borrower’s last FICO pulled belongs to.
28	last_fico_range_low	The lower boundary range the borrower’s last FICO pulled belongs to.
29	last_pymnt_amnt	Last total payment amount received
30	last_pymnt_d	Last month payment was received
31	loan_amnt	The listed amount of the loan applied for by the borrower. If at some point in time, the credit department reduces the loan amount, then it will be reflected in this value.
32	loan_status	Current status of the loan
33	member_id	A unique LC assigned Id for the borrower member.
34	mths_since_last_delinq	The number of months since the borrower's last delinquency.
35	mths_since_last_major_derog	Months since most recent 90-day or worse rating
36	mths_since_last_record	The number of months since the last public record.
37	next_pymnt_d	Next scheduled payment date
38	open_acc	The number of open credit lines in the borrower's credit file.
39	out_prncp	Remaining outstanding principal for total amount funded
40	out_prncp_inv	Remaining outstanding principal for portion of total amount funded by investors
41	policy_code	publicly available policy_code=1 new products not publicly available policy_code=2
42	pub_rec	Number of derogatory public records
43	purpose	A category provided by the borrower for the loan request.
44	pymnt_plan	Indicates if a payment plan has been put in place for the loan
45	recoveries	post charge off gross recovery
46	revol_bal	Total credit revolving balance
47	revol_util	Revolving line utilization rate, or the amount of credit the borrower is using relative to all available revolving credit.
48	sub_grade	LC assigned loan subgrade
49	term	The number of payments on the loan. Values are in months and can be either 36 or 60.
50	title	The loan title provided by the borrower
51	total_acc	The total number of credit lines currently in the borrower's credit file
52	total_pymnt	Payments received to date for total amount funded
53	total_pymnt_inv	Payments received to date for portion of total amount funded by investors
54	total_rec_int	Interest received to date
55	total_rec_late_fee	Late fees received to date
56	total_rec_prncp	Principal received to date
57	url	URL for the LC page with listing data.
58	verified_status_joint	Indicates if the co-borrowers' joint income was verified by LC, not verified, or if the income source was verified
59	zip_code	The first 3 numbers of the zip code provided by the borrower in the loan application.
60	open_acc_6m	Number of open trades in last 6 months
61	open_il_6m	Number of currently active installment trades
62	open_il_12m	Number of installment accounts opened in past 12 months
63	open_il_24m	Number of installment accounts opened in past 24 months
64	mths_since_rcnt_il	Months since most recent installment accounts opened
65	total_bal_il	Total current balance of all installment accounts
66	il_util	Ratio of total current balance to high credit/credit limit on all install acct
67	open_rv_12m	Number of revolving trades opened in past 12 months
68	open_rv_24m	Number of revolving trades opened in past 24 months
69	max_bal_bc	Maximum current balance owed on all revolving accounts
70	all_util	Balance to credit limit on all trades
71	total_rev_hi_lim	Total revolving high credit/credit limit
72	inq_fi	Number of personal finance inquiries
73	total_cu_tl	Number of finance trades
74	inq_last_12m	Number of credit inquiries in past 12 months
75	acc_now_delinq	The number of accounts on which the borrower is now delinquent.
76	tot_coll_amt	Total collection amounts ever owed
77	tot_cur_bal	Total current balance of all accounts

通过查看列说明，我们可以做的一件好事是找到具有重要性的列，同时找到因缺少信息而多余的列。

让我们还查看缺失值的数量和百分比，

def null_values(df):

mis_val = df.isnull().sum()

mis_val_percent = 100 * df.isnull().sum() / len(df)

mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)

mis_val_table_ren_columns = mis_val_table.rename(

columns = {0 : 'Missing Values', 1 : '% of Total Values'})

mis_val_table_ren_columns = mis_val_table_ren_columns[

mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(

'% of Total Values', ascending=False).round(1)

print ("Dataframe has " + str(df.shape[1]) + " columns.\n"

"There are " + str(mis_val_table_ren_columns.shape[0]) +

" columns that have missing values.")

return mis_val_table_ren_columns

# Missing values statistics

miss_values = null_values(df)

miss_values.head(20)

许多列中丢失数据的百分比远远超出了我们的工作范围。因此，稍后我们必须删除数据量少于总数据量一定百分比的列。

我们还要检查的另一件事是，与其他贷款相比，有多少贷款处于违约贷款状态。在此类数据集中进行预测的常见现象是，新贷款是否会违约。我将使用违约状态的贷款作为目标变量。

target_list = [1 if i=='Default' else 0 for i in df['loan_status']]

df['TARGET'] = target_list

df['TARGET'].value_counts()

很明显，这是不平衡数据问题的一种情况，其中阶级的价值远远小于另一个。有用于解决此类问题的基于成本函数的方法和基于抽样的方法，我们稍后将使用它们，以便我们的模型在尝试预测贷款是否会违约时不会表现出高偏差。

1	`df.drop('loan_status',axis=1,inplace=True)`

然后，查看我们正在使用的数据类型的分布

因此，我们有很多具有对象数据类型的列，这将在建模时造成问题。
让我们看看具有“对象”数据类型的列包含多少分类数据：

1	`df.select_dtypes('object').apply(pd.Series.nunique, axis` `=` `0)`

我们希望对仅包含2个分类数据的列进行标签编码，并对超过2个分类数据的一键编码列进行标签编码。另外，应删除诸如emp_title，url，desc等之类的列，因为它们所包含的任何类别都没有大量唯一数据。同样，可以对一键编码的列执行主成分分析，以降低特征尺寸。

异常值检测
让我们检查数据中是否存在异常。通常在处理时间（例如工作年限）的列中发现可能的数据异常。让我们快速通过它们。

1	`df['emp_length'].head(3)`

我将用0填充空值，前提是借款人没有工作很多年才能记录其数据。另外，我将使用正则表达式从所有数据中提取年数。

df['emp_length'].fillna(value=0,inplace=True)

df['emp_length'].replace(to_replace='[^0-9]+', value='', inplace=True, regex=True)

df['emp_length'].value_counts().sort_values().plot(kind='barh',figsize=(18,8))

plt.title('Number of loans distributed by Employment Years',fontsize=20)

plt.xlabel('Number of loans',fontsize=15)

plt.ylabel('Years worked',fontsize=15);

该变量看起来不错。此外，可以看出，工作了10年或以上的人更有可能借贷。

fig = plt.figure(figsize=(12,6))

sns.violinplot(x="TARGET",y="loan_amnt",data=df, hue="pymnt_plan", split=True)

plt.title("Payment plan - Loan Amount", fontsize=20)

plt.xlabel("TARGET", fontsize=15)

plt.ylabel("Loan Amount", fontsize=15);

很正常，违约贷款没有偿还付款计划

探索性数据分析
让我删除所有丢失数据超过70％的列，因为它们对建模和探索无济于事。

建模
现在，对于建模，我将使用两种集成方法并进行比较。

i）Bootstrap Aggregrating or Bagging

ii）Boosting

1）Bagging - Random Forest
集成决策树算法

通过套袋方法进行培训（重复抽样替换）

装袋：样品中的样品
RF：来自预测变量的样本。 m = sqrt（p）用于分类，m = p / 3用于回归问题。
利用不相关的树

from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import cross_val_score, cross_val_predict

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

创建分类器，

#python风控建模实战lendingClub：https://ke.qq.com/course/3063950?tuin=dcbf0baedef print_score(clf, X_train, y_train, X_test, y_test, train=True):

if train:

print("Train Result:\n")

print("accuracy score: {0:.4f}\n".format(accuracy_score(y_train, clf.predict(X_train))))

print("Classification Report: \n {}\n".format(classification_report(y_train, clf.predict(X_train))))

print("Confusion Matrix: \n {}\n".format(confusion_matrix(y_train, clf.predict(X_train))))

res = cross_val_score(clf, X_train, y_train, cv=10, scoring='accuracy')

print("Average Accuracy: \t {0:.4f}".format(np.mean(res)))

print("Accuracy SD: \t\t {0:.4f}".format(np.std(res)))

elif train==False:

print("Test Result:\n")

print("accuracy score: {0:.4f}\n".format(accuracy_score(y_test, clf.predict(X_test))))

print("Classification Report: \n {}\n".format(classification_report(y_test, clf.predict(X_test))))

print("Confusion Matrix: \n {}\n".format(confusion_matrix(y_test, clf.predict(X_test))))

划分训练数据和测试数据

1	`from` `sklearn.model_selection` `import` `train_test_split`

1	`X_train, X_test, y_train, y_test` `=` `train_test_split(df.drop('TARGET',axis=1),df['TARGET'],test_size=0.15,random_state=101)`

释放内存

1 2	`del` `start_df` `gc.collect()`

通过去除均值并缩放到单位方差来标准化特征

1	`from` `sklearn.preprocessing` `import` `StandardScaler`

sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test=sc.transform(X_test)

对训练集进行过采样

1	`from` `imblearn.over_sampling` `import` `SMOTE`

现在，我将尝试不同的模型以获得最佳的预测分数。

使用Logistic回归创建准确性和召回率的基准，

准确率和召回得分对基线来说是令人满意的。但是，精度似乎很差。

对于我们来说，过度拟合将是一个巨大的问题。因此，我使用的是随机森林，因为它可以通过随机选择要素来减少过拟合。

我们的验证集精度很高，但是召回率却很低。使用此模型不是一个好主意，因为我们的大多数违约贷款将被错误分类。

2）boosting：
训练弱分类器
通过加权将它们添加到最终的强分类器中。按精度加权（通常）
添加后，数据将重新加权
错误分类的样本会增加体重
Algo被迫从错误分类的样本中学习更多
为了提高效率，我将使用LightGBM分类器（评估指标为AUC）以及Kfold交叉验证。

from sklearn.metrics import roc_auc_score, roc_curve

from sklearn.model_selection import KFold, StratifiedKFold

from lightgbm import LGBMClassifier

结合使用LightGBM和Kfold交叉验证的功能

#python风控建模实战lendingClub：https://ke.qq.com/course/3063950?tuin=dcbf0baedef kfold_lightgbm(train_df, num_folds, stratified = False):

print("Starting LightGBM. Train shape: {}".format(train_df.shape))

# Cross validation model

if stratified:

folds = StratifiedKFold(n_splits= num_folds, shuffle=True, random_state=47)

else:

folds = KFold(n_splits= num_folds, shuffle=True, random_state=47)

oof_preds = np.zeros(train_df.shape[0])

feature_importance_df = pd.DataFrame()

feats = [f for f in train_df.columns if f not in ['TARGET']]

# Splitting the training set into folds for Cross Validation

for n_fold, (train_idx, valid_idx) in enumerate(folds.split(train_df[feats], train_df['TARGET'])):

train_x, train_y = train_df[feats].iloc[train_idx], train_df['TARGET'].iloc[train_idx]

valid_x, valid_y = train_df[feats].iloc[valid_idx], train_df['TARGET'].iloc[valid_idx]

# LightGBM parameters found by Bayesian optimization

clf = LGBMClassifier(

nthread=4,

n_estimators=10000,

learning_rate=0.02,

num_leaves=32,

colsample_bytree=0.9497036,

subsample=0.8715623,

max_depth=8,

reg_alpha=0.04,

reg_lambda=0.073,

min_split_gain=0.0222415,

min_child_weight=40,

silent=-1,

verbose=-1,

)

# Fitting the model and evaluating by AUC

clf.fit(train_x, train_y, eval_set=[(train_x, train_y), (valid_x, valid_y)],

eval_metric= 'auc', verbose= 1000, early_stopping_rounds= 200)

print_score(clf, train_x, train_y, valid_x, valid_y, train=False)

# Dataframe holding the different features and their importance

fold_importance_df = pd.DataFrame()

fold_importance_df["feature"] = feats

fold_importance_df["importance"] = clf.feature_importances_

fold_importance_df["fold"] = n_fold + 1

feature_importance_df = pd.concat([feature_importance_df, fold_importance_df], axis=0)

# Freeing up memory

del clf, train_x, train_y, valid_x, valid_y

gc.collect()

display_importances(feature_importance_df)

return feature_importance_df

用于显示变量重要性

def display_importances(feature_importance_df_):

cols = feature_importance_df_[["feature", "importance"]].groupby("feature").mean().sort_values(by="importance", ascending=False)[:40].index

best_features = feature_importance_df_.loc[feature_importance_df_.feature.isin(cols)]

plt.figure(figsize=(15, 12))

sns.barplot(x="importance", y="feature", data=best_features.sort_values(by="importance", ascending=False))

plt.title('LightGBM Features (avg over folds)')

plt.tight_layout()

plt.savefig('lgbm_importances.png')

feat_importance = kfold_lightgbm(df, num_folds= 3, stratified= False)

如我们所见，LightGBM在获得高精度和高召回率方面做得非常出色。因此，就我们评估的3个模型而言，该模型是最好的。
为了进一步增强模型，可以进行特征工程。还可以通过将不同的贷款状态放在一起来使用诸如“好贷款”和“坏贷款”之类的更广泛的术语，以获得更均衡的类别计数，而不是违约/非违约。

此课程采用catboost对称树算法比LightGBM更不容易过度拟合。

欢迎各位学员报名系列课，学习更多金融建模知识

python金融风控模型模型和数据分析微专业课
https://edu.csdn.net/combo/detail/1927

你可能感兴趣的:(python风控模型,机器学习,统计模型,算法,python,数据挖掘)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默