杨莯颖

信用评分卡模型（R语言）

贷款风险预测-信用评分卡模型（R语言）

时间：2018年10月9日

本次的分析数据来自Kaggle数据竞赛平台的“give me some credit”竞赛项目。下载地址为：https://www.kaggle.com/c/GiveMeSomeCredit/data

本次分析主要做了两件事：
一、用逻辑回归预测用户未来两年违约的概率
二、根据违约概率制作评分卡

分析步骤：
1.变量的描述
2.数据预处理
3.变量分析
3.模型建立
4.模型评估
5.制作评分卡

一、变量的描述

SeriousDlqin2yrs：超过90天或更糟的逾期拖欠
RevolvingUtilizationOfpercentage ：无担保放款的循环利用：除了不动产和像车贷那样除以信用额度总和的无分期付款债务的信用卡和个人信用额度总额
UnsecuredLines age ：借款人当时的年龄
NumberOfTime30-59DaysPastDueNotWorse ：35-59天逾期但不糟糕次数
DebtRatio percentage：负债比率
MonthlyIncome real：月收入
NumberOf OpenCreditLinesAndLoans：开放式信贷和贷款数量，开放式贷款（分期付款如汽车贷款或抵押贷款）和信贷（如信用卡）的数量
NumberOfTimes90DaysLate：90天逾期次数：借款者有90天或更高逾期的次数
NumberRealEstateLoans ：不动产贷款或额度数量：抵押贷款和不动产放款包括房屋净值信贷额度
OrLinesNumberOfTime60-89DaysPastDueNotWorse ：60-89天逾期但不糟糕次数：借款人在在过去两年内有60-89天逾期还款但不糟糕的次数
NumberOfDependents：家属数量：不包括本人在内的家属数量

二、数据预处理

1.导入数据并预览数据

cstraining<-read.csv('D:\\A\\score-card\\cs-training.csv')
View(cstraining)

2. 删除 `X` 变量

cstraining$X<-NULL

3. 更改变量名称

colnames(cstraining)<-c("y" ,"RUOUL","age","D30Past","DR","Income","OCAL" ,"D90Late"  ,"RealEstate" ,"D60Past","Dependents" )
names(train)

4. 处理样本均衡

> prop.table(table(cstraining$y))

      0       1 
0.93316 0.06684

违约客户样本量只占了6.7%，样本不均衡。这里，我采用的方法是把违约客户重复放进样本里：

bad<-cstraining[which(cstraining$y==1),]
all<-rbind(cstraining,bad)

> prop.table(table(all$y))

        0         1 
0.8746954 0.1253046

此时，违约客户占比达到了12.5%，在可接受范围内。

5. 异常值和缺失值的处理

dat1<-all

（1）查看数据缺失情况

library(mice)
md.pattern(dat1)

由图可以看出字段的缺失值个数Income：31400 ， Dependents：4103

查看缺失比例：

library(VIM)
aggr_plot <- aggr(all, col=c('navyblue','red'), numbers=TRUE, sortVars=TRUE, labels=names(dat1), cex.axis=.7, gap=3, ylab=c("Histogram of missing all","Pattern"))

 Variables sorted by number of missings: 
   Variable      Count
     Income 0.19621811
 Dependents 0.02563958
          y 0.00000000
      RUOUL 0.00000000
        age 0.00000000
 D30.59Past 0.00000000
         DR 0.00000000
       OCAL 0.00000000
    D90Late 0.00000000
 RealEstate 0.00000000
 D60.89Past 0.00000000

（2）对各变量进行异常值与缺失值处理

##盖帽法函数
block<-function(x,lower=T,upper=T){
  if(lower){
    q1<-quantile(x,0.01)
    x[x<=q1]<-q1
  }
  if(upper){
    q99<-quantile(x,0.99)
    x[x>q99]<-q99
  }
  return(x)
}

(i). 对变量RUOUL进行处理

dat1$RUOUL<-block(dat1$RUOUL)

boxplot(RUOUL~y,data=dat1,horizontal=T, frame=F, 
        col="lightgray",main="RUOUL")

(ii). 对变量age进行处理

> summary(dat1$age)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.0    41.0    51.0    51.9    62.0   109.0

> which(dat1$age==0)
[1] 65696
> dat1<-dat1[-which(dat1$age==0),]

年龄为0的肯定是异常值，而且只有一个数据是0，我采用的是直接删除这个记录。

boxplot(age~y,data=dat1,horizontal=T, frame=F, 
        col="lightgray",main="age")

由图可看出，年龄这个变量，是大年龄段存在异常值

QLa <- quantile(dat1$age, probs = 0.25)
QUa <- quantile(dat1$age, probs = 0.75)
QUa_QLa <- QUa-QLa
QLa;QUa;QUa_QLa
dat1$age[which(dat1$age> (QUa+1.5*QUa_QLa))]<-1.5*QUa_QLa

boxplot(dat1$age,col="lightgray",main="age")

(iii). 对变量D30Past进行处理

> table(dat1$D30Past )

     0      1      2      3      4      5      6      7      8      9 
131059  18441   5817   2372   1065    496    214     82     33     16 
    10     11     12     13     96     98 
     7      2      3      2      9    407

> table(dat1$D90Late )

     0      1      2      3      4      5      6      7      8      9 
148215   7008   2331   1052    486    214    128     69     36     33 
    10     11     12     13     14     15     17     96     98 
    13      8      3      6      3      2      2      9    407 
> table(dat1$D60Past )

     0      1      2      3      4      5      6      7      8      9 
149651   7508   1679    498    170     55     28     14      3      1 
    11     96     98 
     2      9    407

显然值为96，98 的是异常值。我采用的方法是直接删除。而且D30Past这个变量的96，98的记录删除之后，后面D90Late D60Past两个变量的96，98的记录也同时被删除了。

> dat1<-dat1[-which(dat1$D30Past %in% c(96,98)),]

> table(dat1$D30Past )

     0      1      2      3      4      5      6      7      8      9     10     11 
131059  18441   5817   2372   1065    496    214     82     33     16      7      2 
    12     13 
     3      2 
> table(dat1$D90Late )

     0      1      2      3      4      5      6      7      8      9     10     11 
148215   7008   2331   1052    486    214    128     69     36     33     13      8 
    12     13     14     15     17 
     3      6      3      2      2 
> table(dat1$D60Past )

     0      1      2      3      4      5      6      7      8      9     11 
149651   7508   1679    498    170     55     28     14      3      1      2

盖帽法处理异常值

dat1$D30.59Past<-block(dat1$D30.59Past)

> table(dat1$D30.59Past )

     0      1      2      3      4 
131059  18441   5817   2372   1920

(iv).对变量 "DR"进行处理

> summary(dat1$DR)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
     0.0      0.2      0.4    350.3      0.9 329664.0

盖帽法处理

dat1$DR<-block(dat1$DR)

(v). 对变量Income进行处理
因为已经做过多次模型对比，对这个变量分别采用KNN填补和均值填补，发现采用均值填补，模型效果更好，因此我采用的是用均值填补缺失值，然而均值容易受到极端值的影响，所以先对少数过于极端的异常值作处理，再填补缺失值

存在大量0，1，2这样的异常值，当作缺失值处理

dat1$Income[which(dat1$Income %in% c(0,1,2))]<-NA

boxplot(dat1$Income,col="lightgray",main="Income",range =1.5)

红色框里的值对应的记录直接删除，调range参数，找出想删除的值

boxplot(dat1$Income,col="lightgray",main="Income",range =100)

> sort(boxplot.stats(dat1$Income,coef =100)$out)
 [1]  562466  582369  629000  649587  699530  702500  730483  835040
 [9] 1072500 1560100 1794060 3008750`

dat1<-dat1[-which(dat1$Income>=562466),]

均值填补缺失值

dat1$Income[is.na(dat1$Income)]<-mean(dat1$Income,na.rm=TRUE)

盖帽法处理异常值

dat1$Income<-block(dat1$Income)

> summary(dat1$Income)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    820    4000    6630    6441    7300   22942

(vi).对变量OCAL进行处理

> table(dat1$OCAL)

    0     1     2     3     4     5     6     7     8     9    10    11 
 1959  5020  7275  9739 12352 13750 14367 13991 13166 12018 10197  8790 
   12    13    14    15    16    17    18    19    20    21    22    23 
 7445  5976  4846  3926  3206  2527  2007  1516  1266   924   731   575 
   24    25    26    27    28    29    30    31    32    33    34    35 
  447   354   261   209   157   122    98    78    54    51    36    28 
   36    37    38    39    40    41    42    43    44    45    46    47 
   21     8    13    10    11     5     8     9     2     9     3     2 
   48    49    50    51    52    53    54    56    57    58 
    8     5     2     2     4     1     4     2     3     1

> quantile(dat1$OCA,0.99)
99% 
 24 
> quantile(dat1$OCA,0.01)
1% 
 0

采用盖帽法处理

> dat1$OCAL<-block(dat1$OCAL)
> table(dat1$OCAL)

    0     1     2     3     4     5     6     7     8     9    10    11 
 1959  5020  7275  9739 12352 13750 14367 13991 13166 12018 10197  8790 
   12    13    14    15    16    17    18    19    20    21    22    23 
 7445  5976  4846  3926  3206  2527  2007  1516  1266   924   731   575 
   24 
 2028

(vii).对变量D90Late进行处理

> prop.table(table(dat1$D90Late))

            0             1             2             3             4 
0.92860768060 0.04391059982 0.01460553770 0.00659160260 0.00304517002 
            5             6             7             8             9 
0.00134087733 0.00080202009 0.00043233895 0.00022556815 0.00020677080 
           10            11            12            13            14 
0.00008145517 0.00005012626 0.00001879735 0.00003759469 0.00001879735 
           15            17 
0.00001253156 0.00001253156

单一指标占比大于90%的变量不适合进入模型，然而这个变量又比较重要，所以我把大于0次的都统一为1，然后0代表没有过超过90天逾期记录，1代表有超过90天逾期的记录。

dat1$D90Late<-as.numeric(as.logical(dat1$D90Late))

> prop.table(table(dat1$D90Late))

         0          1 
0.92860768 0.07139232

(viii).对变量RealEstate进行处理

> table(dat1$RealEstate)

    0     1     2     3     4     5     6     7     8     9    10    11 
60439 55083 33284  6722  2362   772   368   202   116    92    42    25 
   12    13    14    15    16    17    18    19    20    21    23    25 
   24    20     7    10     5     5     2     2     3     1     2     4 
   26    29    32    54 
    1     2     1     1

> quantile(dat1$RealEstate,0.99)
99% 
  5 
> quantile(dat1$RealEstate,0.01)
1% 
 0

采用盖帽法处理

> dat1$RealEstate<-block(dat1$RealEstate)
> table(dat1$RealEstate)

    0     1     2     3     4     5 
60439 55083 33284  6722  2362  1707

(ix).对变量D60Past进行处理

> prop.table(table(dat1$D60Past))

             0              1              2              3              4 
0.937611609241 0.047037225010 0.010520247874 0.003120359405 0.001065182930 
             5              6              7              8              9 
0.000344618007 0.000175441894 0.000087720947 0.000018797346 0.000006265782 
            11 
0.000012531564

处理方法和理由与变量D90Late一样

> dat1$D60.89Past<-as.numeric(as.logical(dat1$D60Past))
> prop.table(table(dat1$D60Past))

         0          1 
0.93761161 0.06238839

(x).对变量Dependents进行处理

> summary(dat1$Dependents)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   0.00    0.00    0.00    0.77    1.00   20.00    4060

> table(dat1$Dependents)

    0     1     2     3     4     5     6     7     8     9    10    13 
91702 28210 21070 10310  3156   813   182    56    26     5     5     1 
   20 
    1

缺失值用众数0填补

dat1$Dependents[is.na(dat1$Dependents)]<-0

盖帽法处理异常值

dat1$Dependents<-block(dat1$Dependents)

> table(dat1$Dependents)

    0     1     2     3     4 
95762 28210 21070 10310  4245

三、变量分析

y中0和1互换,互换后1是没有违约客户，0是违约客户

dat2<-dat1
dat2$y<-as.numeric(!as.logical(dat2$y))

查看相关性

library(corrplot)
cor1<-cor(dat2)
corrplot(cor1,method="number")

各变量间的相关系数不大，可以不作处理

四、建立模型

1、划分训练集与测试集

> prop.table(table(dat2$y))

        0         1 
0.1237993 0.8762007

library(caret)
set.seed(1234) 
splitIndex<-createDataPartition(dat2$y,time=1,p=0.7,list=FALSE) 
train<-dat2[splitIndex,] 
test<-dat2[-splitIndex,]

> prop.table(table(train$y))

        0         1 
0.1243041 0.8756959 
> prop.table(table(test$y))

        0         1 
0.1226216 0.8773784

> nrow(train)
[1] 111718
> nrow(test)
[1] 47879

2、建logistics回归模型

model<-glm(y~.,train,family = "binomial")
summary(model)

所有变量都显著

Coefficients:
                Estimate   Std. Error z value             Pr(>|z|)    
(Intercept)  2.759486590  0.051636436  53.441 < 0.0000000000000002 ***
RUOUL       -1.965393815  0.031089068 -63.218 < 0.0000000000000002 ***
age          0.018351654  0.000865627  21.200 < 0.0000000000000002 ***
D30.59Past  -0.469131910  0.011938381 -39.296 < 0.0000000000000002 ***
DR           0.000054717  0.000012537   4.365            0.0000127 ***
Income       0.000046362  0.000003391  13.673 < 0.0000000000000002 ***
OCAL        -0.039503078  0.002506984 -15.757 < 0.0000000000000002 ***
D90Late     -1.598706728  0.029895157 -53.477 < 0.0000000000000002 ***
RealEstate  -0.133127866  0.012048378 -11.049 < 0.0000000000000002 ***
D60.89Past  -1.076664163  0.032420477 -33.209 < 0.0000000000000002 ***
Dependents  -0.046652021  0.009639607  -4.840            0.0000013 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 83881  on 111717  degrees of freedom
Residual deviance: 60808  on 111707  degrees of freedom
AIC: 60830

3、检验多重共线性

library(car)

> vif(model)
     RUOUL        age D30.59Past         DR     Income       OCAL    D90Late 
  1.216980   1.152183   1.110489   1.048800   1.220319   1.549682   1.123098 
RealEstate D60.89Past Dependents 
  1.491353   1.081564   1.067081

五、模型评估

1、返回模型在测试集上的概率值

pre <- predict(object = model, newdata= test, type = 'response')

2、ROC检验

library(pROC)
modelroc <- roc(test$y,pre)
plot(modelroc, print.auc=TRUE, auc.polygon=TRUE, grid=c(0.1, 0.2),grid.col=c("green", "red"), max.auc.polygon=TRUE,auc.polygon.col="skyblue", print.thres=TRUE)

模型AUC值为0.855，效果还可以。（注，在此之前已经用过多种方法清洗数据，得到的AUC值分别为：0.858，0.831，0.796。不同的数据清洗，对模型结果影响也是蛮大的。）

3、KS检验

定义KS函数：

myKS <- function(pre,label){
  true <- sum(label)
  false <- length(label)-true
  tpr <- NULL
  fpr <- NULL
  o_pre <- pre[order(pre)] # let the threshold in an order from small to large
  for (i in o_pre){
    tp <- sum((pre >= i) & label)
    tpr <- c(tpr,tp/true)
    fp <- sum((pre >= i) & (1-label))
    fpr <- c(fpr,fp/false)
  }
  plot(o_pre,tpr,type = "l",col= "green",xlab="threshold",ylab="tpr,fpr")
  lines(o_pre,fpr,type="l", col = "red")
  KSvalue <- max(tpr-fpr)
  sub = paste("KS value =",KSvalue)
  title(sub=sub)
  cutpoint <- which(tpr-fpr==KSvalue)
  thre <- o_pre[cutpoint]
  lines(c(thre,thre),c(fpr[cutpoint],tpr[cutpoint]),col = "blue")
  cat("KS-value:",KSvalue)
}

myKS(pre,test$y)

KS值为0.55，模型效果还不错

六、制作评分卡

（一）WOE转换

计算WOE的函数

totalbad = as.numeric(table(train$y))[1]
totalgood = as.numeric(table(train$y))[2]
getWOE <- function(a,p,q)   
{      
  Bad <- as.numeric(table(train$y[a > p & a <= q]))[1]      
  Good <- as.numeric(table(train$y[a > p & a <= q]))[2]      
  WOE <- log((Good/totalgood)/(Bad/totalbad),base = exp(1))   
  return(WOE)  
}

library(smbinning)

（二）对各变量进行分箱

1.RUOUL变量

train$RUOUL<-round(train$RUOUL,3)#保留3位小数

RUOULresult=smbinning(df=train,y="y",x="RUOUL",p=0.05)
> RUOULresult$iv
[1] 1.1077

查看分箱情况

RUOULresult$ivtable
smbinning.plot(RUOULresult,option="WoE",sub="RUOUL")

分箱情况还不错，保留自动分箱结果

进行woe转换

tmp.RUOUL <- 0 
for(i in 1:nrow(train)) {      
  if(train$RUOUL[i] <= 0.114)        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][1]      
  else if(train$RUOUL[i] <= 0.227)        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][2]      
  else if(train$RUOUL[i] <= 0.3)        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][3]      
  else if(train$RUOUL[i] <= 0.389)        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][4]      
  else if(train$RUOUL[i] <= 0.493)        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][5]      
  else if(train$RUOUL[i] <= 0.6791)        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][6]      
  else if(train$RUOUL[i] <= 0.902)        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][7]      
  else        
    tmp.RUOUL[i] <- RUOULresult$ivtable[[13]][8]    
}

> table(tmp.RUOUL)
tmp.RUOUL
-1.3896 -0.8822 -0.3639  0.0528  0.2664  0.6058  0.7948  1.3609 
  16901    8916    8219    5663    5638    5662   12631   48088

train_WOE<-train
train_WOE$w_RUOUL<-tmp.RUOUL

2.对age变量进行分箱

ageresult=smbinning(df=train,y="y",x="age",p=0.05)
smbinning.plot(ageresult,option="WoE",sub="age")

> ageresult$iv
[1] 0.2582

woe转换

tmp.age <- 0    
for(i in 1:nrow(train)) {      
  if(train$age[i] <= 35)        
    tmp.age[i] <- ageresult$ivtable[[13]][1]      
  else if(train$age[i] <= 43)        
    tmp.age[i] <- ageresult$ivtable[[13]][2]      
  else if(train$age[i] <= 49)        
    tmp.age[i] <- ageresult$ivtable[[13]][3]      
  else if(train$age[i] <= 52)        
    tmp.age[i] <- ageresult$ivtable[[13]][4]      
  else if(train$age[i] <= 55)        
    tmp.age[i] <- ageresult$ivtable[[13]][5]      
  else if(train$age[i] <= 59)        
    tmp.age[i] <- ageresult$ivtable[[13]][6]      
  else if(train$age[i] <= 63)        
    tmp.age[i] <- ageresult$ivtable[[13]][7]      
  else if(train$age[i] <= 67)        
    tmp.age[i] <- ageresult$ivtable[[13]][8]      
  else        
    tmp.age[i] <- ageresult$ivtable[[13]][9]    
}

train_WOE$w_age<-tmp.age

3.对D30Past 变量进行分箱

D30Pastresult=smbinning(df=train,y="y",x="D30Past",p=0.05)
smbinning.plot(D30Pastresult,option="WoE",sub="D30Past")

woe转换

tmp.D30Past <- 0    
for(i in 1:nrow(train)) {      
  if(train$D30Past[i] <= 0)        
    tmp.D30Past[i] <- D30Pastresult$ivtable[[13]][1]      
  else if(train$D30Past[i] <= 1)        
    tmp.D30Past[i] <- D30Pastresult$ivtable[[13]][2]      
  else        
    tmp.D30Past[i] <-D30Pastresult$ivtable[[13]][3]    
}
table(tmp.D30Past)
train_WOE$w_D30Past<-tmp.D30Past

4对DR变量进行分箱

train$DR<-round(train$DR,3)#保留3位小数

DRresult=smbinning(df=train,y="y",x="DR",p=0.05)
smbinning.plot(DRresult,option="WoE",sub="DR")

分箱结果并不是很好，决定把前面两个分箱合并，看一下woe值

> getWOE(train$DR,-Inf,0.137)
[1] 0.1509092

第一第二个箱合并结果并没有很好，合并后的WOE值与第三个箱的WOE值几乎相等。尝试一下第二第三个箱合并，看一下结果

> getWOE(train$DR,0.016,0.381)
[1] 0.1043971

第二第三个箱合并后，woe值还不错
手动分箱提取woe：

woe.DR_1=getWOE(train$DR,-Inf,0.016)
woe.DR_2=getWOE(train$DR,0.016,0.381)   
woe.DR_3=getWOE(train$DR,0.381,0.503)
woe.DR_4=getWOE(train$DR,0.503,0.666)
woe.DR_5=getWOE(train$DR,0.666,3.972)
woe.DR_6=getWOE(train$DR,3.972,Inf)
DR.WOE<-c(woe.DR_1,woe.DR_2,woe.DR_3,woe.DR_4,woe.DR_5,woe.DR_6)
DR.WOE<-round(DR.WOE,3)

画woe代码：

x<- barplot(DR.WOE,xlab="preference",ylab="frequency",main='Weight of Evidence')
lbls<-paste(" ",DR.WOE)
text(x,DR.WOE,labels=lbls,cex=1.5,pos=1)

进行woe转换

tmp.DR <- 0    
for(i in 1:nrow(train)) {      
  if(train$DR[i] <= 0.016)        
    tmp.DR[i] <- woe.DR_1      
  else if(train$DR[i] <= 0.381)       
    tmp.DR[i] <- woe.DR_2      
  else if(train$DR[i] <= 0.503)        
    tmp.DR[i] <- woe.DR_3      
  else if(train$DR[i] <= 0.666)        
    tmp.DR[i] <- woe.DR_4      
  else if(train$DR[i] <= 3.972)        
    tmp.DR[i] <- woe.DR_5      
  else        
    tmp.DR[i] <- woe.DR_6    
}

train_WOE$w_DR<-tmp.DR

5.对Income变量进行分箱

Incomeresult=smbinning(df=train,y="y",x="Income",p=0.05)
smbinning.plot(Incomeresult,option="WoE",sub="Income")

分箱结果并不是很好，尝试合并前面两个箱和后面两个箱

> getWOE(train$Income,-Inf,3332)
[1] -0.396827

> getWOE(train$Income,9830,Inf)
[1] 0.4653303

合并结果还不错，选择合并
提取woe：

woe.Income_1=getWOE(train$Income,-Inf,3332)
woe.Income_2=getWOE(train$Income,3332,4838)   
woe.Income_3=getWOE(train$Income,4838,6620)
woe.Income_4=getWOE(train$Income,6620,9830)
woe.Income_5=getWOE(train$Income,9830,Inf)

Income.WOE=c(woe.Income_1,woe.Income_2,woe.Income_3,woe.Income_4,woe.Income_5)

画woe:

Income.WOE<-round(Income.WOE,3)
x<- barplot(Income.WOE,xlab="preference",ylab="frequency",main='Weight of Evidence')
lbls<-paste(" ",Income.WOE)
text(x,Income.WOE,labels=lbls,cex=1.5,pos=1)

对Income变量进行WOE转换

tmp.Income <- 0    
for(i in 1:nrow(train)) {      
  if(train$Income[i] <= 3332)        
    tmp.Income[i] <- woe.Income_1      
  else if(train$Income[i] <= 4838)        
    tmp.Income[i] <- woe.Income_2      
  else if(train$Income[i] <= 6620)        
    tmp.Income[i] <- woe.Income_3      
  else if(train$Income[i] <= 9830)        
    tmp.Income[i] <- woe.Income_4      
  else        
    tmp.Income[i] <- woe.Income_5    
}

train_WOE$w_Income<-tmp.Income

6.对OCAL变量进行分箱

OCALresult=smbinning(df=train,y="y",x="OCAL",p=0.05)
smbinning.plot(OCALresult,option="WoE",sub="OCAL")

> OCALresult$iv
[1] 0.0709

woe转换：

tmp.OCAL <- 0    
for(i in 1:nrow(train)) {      
  if(train$OCAL[i] <= 2)        
    tmp.OCAL[i] <- OCALresult$ivtable[[13]][1]      
  else if(train$OCAL[i] <= 3)        
    tmp.OCAL[i] <- OCALresult$ivtable[[13]][2]      
  else if(train$OCAL[i] <= 5)        
    tmp.OCAL[i] <- OCALresult$ivtable[[13]][3]      
  else if(train$OCAL[i] <= 7)        
    tmp.OCAL[i] <- OCALresult$ivtable[[13]][4]      
  else if(train$OCAL[i] <= 8)        
    tmp.OCAL[i] <- OCALresult$ivtable[[13]][5]      
  else if(train$OCAL[i] <= 13)        
    tmp.OCAL[i] <- OCALresult$ivtable[[13]][6]      
  else        
    tmp.OCAL[i] <- OCALresult$ivtable[[13]][7]    
}


train_WOE$w_OCAL<-tmp.OCAL

7.对D90Late变量进行分箱

> table(train$D90Late)

     0      1 
103607   8111

手动分箱

woe.D90Late_1=getWOE(train$D90Late,-Inf,0)
woe.D90Late_2=getWOE(train$D90Late,0,Inf)

> woe.D90Late_1
[1] 0.3793484
> woe.D90Late_2
[1] -2.279932

#画WOE 代码：

D90Late.WOE<-c(woe.D90Late_1,woe.D90Late_2)
D90Late.WOE<-round(D90Late.WOE,3)
x<- barplot(D90Late.WOE,xlab="preference",ylab="frequency",main = 'D90Late')
lbls<-paste(" ",D90Late.WOE)
text(x,D90Late.WOE,labels=lbls,cex=1.5,pos=1)

#WOE转换

tmp.D90Late<- 0    
for(i in 1:nrow(train)) {      
  if(train$D90Late[i] <= 0)        
    tmp.D90Late[i] <- woe.D90Late_1
  else       
    tmp.D90Late[i] <- woe.D90Late_2      
}

train_WOE$w_D90Late<-tmp.D90Late

8.对RealEstate变量进行分箱

RealEstateresult=smbinning(df=train,y="y",x="RealEstate",p=0.05)
smbinning.plot(RealEstateresult,option="WoE",sub="RealEstate")

> RealEstateresult$iv
[1] 0.0491

woe转换：

tmp.RealEstate <- 0    
for(i in 1:nrow(train)) {      
  if(train$RealEstate[i] <= 0)        
    tmp.RealEstate[i] <- RealEstateresult$ivtable[[13]][1]      
  else if(train$RealEstate[i] <= 1)        
    tmp.RealEstate[i] <- RealEstateresult$ivtable[[13]][2]      
  else if(train$RealEstate[i] <= 2)        
    tmp.RealEstate[i] <- RealEstateresult$ivtable[[13]][3]      
  else        
    tmp.RealEstate[i] <- RealEstateresult$ivtable[[13]][4]    
}

train_WOE$w_RealEstate<-tmp.RealEstate

9.对D60Past变量进行分箱

> table(train$D60Past)

     0      1 
104720   6998

woe.D60Past_1 <- getWOE(train$D60Past,-Inf,0)
woe.D60Past_2 <- getWOE(train$D60Past,0,Inf)

> woe.D60Past_1
[1] 0.275222
> woe.D60Past_2
[1] -2.065585

#woe转换：

tmp.D60Past<- 0    
for(i in 1:nrow(train)) {      
  if(train$D60Past[i] <= 0)        
    tmp.D60Past[i] <- woe.D60Past_1
  else       
    tmp.D60Past[i] <- woe.D60Past_2      
}

train_WOE$w_D60Past<-tmp.D60Past

10.对Dependents变量进行分箱：

Dependentsresult=smbinning(df=train,y="y",x="Dependents",p=0.05)
smbinning.plot(Dependentsresult,option="WoE",sub="Dependents")

> Dependentsresult$iv
[1] 0.0391

woe转换：

tmp.Dependents <- 0    
for(i in 1:nrow(train)) {      
  if(train$Dependents[i] <= 0)        
    tmp.Dependents[i] <- Dependentsresult$ivtable[[13]][1]      
  else if(train$Dependents[i] <= 1)        
    tmp.Dependents[i] <- Dependentsresult$ivtable[[13]][2]      
  else if(train$Dependents[i] <= 2)        
    tmp.Dependents[i] <- Dependentsresult$ivtable[[13]][3]      
  else        
    tmp.Dependents[i] <- Dependentsresult$ivtable[[13]][4]    
}

train_WOE$w_Dependents<-tmp.Dependents

（三）用分箱后的woe值替换原来的值：

train.woe<-train_WOE[,c(1,12:21)]
View(train.woe)

（四）评分卡的创建和实施

1、信用评分卡的评分公式为：

Score = q - p *log(odds)

2、标准odds : 标准评分对应的odds
3、ln(odds)公式为：
ln⁡(odds)=ln⁡(p/(1-p))=β_0+β_1 x_1+β_2 x_2+β_3 x_3+⋯+β_n x_n

4、PDO：odds翻倍所需增加的分值
建模预测结果为“不发生违约的概率”，log(odds)即表示为“好坏比”。
由于逻辑回归模型的预测结果恰好为ln(odds)，因此上式中的ln(odds)可替换为：intercept+∑评分权重*WOE
5、评分需要自己预设一个评分标准，比如：
如果标准评分=600，标准odds=10:1，PDO=40，那么，一个600分的客户所对应的odds就是10:1，一个640分的客户所对应的odds就是20:1，同样，560分则对应的odds就是5:1。
评分标准的设定需根据行业经验不断跟踪调整，下面的分数设定仅代表个人经验。
6、下面开始设立评分，假设按好坏比10为600分，每高40分好坏比翻一倍算出p,q。
即有方程组：
600 = q - p log(10)
600+40 = q - p log(210)
解方程组得：
p = -40/log(2)
q = 600 - 40log(10)/log(2)
把解得的p,q值代入公式：

Score = q - p *log(odds)

即可算得每个变量的每个分箱的得分以及每个客户的得分
最终做出的评分卡样式如下（此表是在Excel做的，用的是R语言导出的评分卡CSV文件）：

评分卡最终样式

制作评分卡代码

以下制作评分卡的过程也可以用现成的包直接生成，我是为了让自己加深理解，所以采用手动一步一步操作，过程比较繁琐，由于是初学者，代码也没有很简洁，大家就将就着看吧。囧。。。
以下是制作评分卡的代码：

> glm.fit <-glm(y~., data=train.woe, family = binomial(link=logit))

> summary(glm.fit)

Call:
glm(formula = y ~ ., family = binomial(link = logit), data = train.woe)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.9660   0.2035   0.2762   0.4261   2.5143  

Coefficients:
             Estimate Std. Error z value             Pr(>|z|)    
(Intercept)   1.93612    0.01131 171.218 < 0.0000000000000002 ***
w_RUOUL       0.60571    0.01125  53.838 < 0.0000000000000002 ***
w_age         0.43762    0.02414  18.132 < 0.0000000000000002 ***
w_D30Past     0.55782    0.01237  45.102 < 0.0000000000000002 ***
w_DR          0.87452    0.03992  21.907 < 0.0000000000000002 ***
w_Income      0.10930    0.03866   2.827             0.004693 ** 
w_OCAL        0.27058    0.04270   6.337       0.000000000235 ***
w_D90Late     0.56345    0.01117  50.423 < 0.0000000000000002 ***
w_RealEstate  0.66499    0.05284  12.585 < 0.0000000000000002 ***
w_D60Past     0.45478    0.01370  33.192 < 0.0000000000000002 ***
w_Dependents  0.21368    0.05549   3.851             0.000118 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Bata系数：

> coe =(glm.fit$coefficients)
> coe
 (Intercept)      w_RUOUL        w_age    w_D30Past         w_DR     w_Income 
   1.9361236    0.6057147    0.4376180    0.5578200    0.8745198    0.1093012 
      w_OCAL    w_D90Late w_RealEstate    w_D60Past w_Dependents 
   0.2705830    0.5634518    0.6649864    0.4547815    0.2136834

根据方程组：
600 = q - p *log(10)
600+40 = q - p log(210)
可算得p,q分别为：

p <- -40/log(2)
q <- 600 - 40*log(10)/log(2)

attach(train.woe)

根据评分公式：

Score = q - p *log(odds)

可算出所有人的分数：

Score=q - p*(as.numeric(coe[1])+as.numeric(coe[2])*w_RUOUL
  +as.numeric(coe[3])*w_age
  +as.numeric(coe[4])*w_D30Past
  +as.numeric(coe[5])*w_DR
  +as.numeric(coe[6])*w_Income
  +as.numeric(coe[7])*w_OCAL
  +as.numeric(coe[8])*w_D90Late
  +as.numeric(coe[9])*w_RealEstate
  +as.numeric(coe[10])*w_D60Past
  +as.numeric(coe[11])*w_Dependents)

> summary(Score)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  282.0   574.5   634.8   615.1   672.8   734.1

个人总评分=基础分+各部分得分
基础得分base为：

> base <- q - p*as.numeric(coe[1])
> base
[1] 578.8523

对各变量进行打分

1、对w_RUOUL 变量打分

woe.RUOUL_1 <- RUOULresult$ivtable[[13]][1]
woe.RUOUL_2 <- RUOULresult$ivtable[[13]][2] 
woe.RUOUL_3 <- RUOULresult$ivtable[[13]][3]
woe.RUOUL_4 <- RUOULresult$ivtable[[13]][4]
woe.RUOUL_5 <- RUOULresult$ivtable[[13]][5]
woe.RUOUL_6 <- RUOULresult$ivtable[[13]][6]
woe.RUOUL_7 <- RUOULresult$ivtable[[13]][7]
woe.RUOUL_8 <- RUOULresult$ivtable[[13]][8]

RUOUL_1.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_1
RUOUL_2.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_2
RUOUL_3.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_3
RUOUL_4.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_4
RUOUL_5.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_5
RUOUL_6.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_6
RUOUL_7.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_7
RUOUL_8.SCORE <- -p*as.numeric(coe[2])*woe.RUOUL_8

RUOUL.SCORE <- c(RUOUL_1.SCORE,RUOUL_2.SCORE,RUOUL_3.SCORE,RUOUL_4.SCORE,RUOUL_5.SCORE,RUOUL_6.SCORE,RUOUL_7.SCORE,RUOUL_8.SCORE)

2、对w_age变量打分

woe.age_1 <- ageresult$ivtable[[13]][1]
woe.age_2 <- ageresult$ivtable[[13]][2] 
woe.age_3 <- ageresult$ivtable[[13]][3]
woe.age_4 <- ageresult$ivtable[[13]][4]
woe.age_5 <- ageresult$ivtable[[13]][5]
woe.age_6 <- ageresult$ivtable[[13]][6]
woe.age_7 <- ageresult$ivtable[[13]][7]
woe.age_8 <- ageresult$ivtable[[13]][8]
woe.age_9 <- ageresult$ivtable[[13]][9]

age_1.SCORE <- -p*as.numeric(coe[3])*woe.age_1
age_2.SCORE <- -p*as.numeric(coe[3])*woe.age_2
age_3.SCORE <- -p*as.numeric(coe[3])*woe.age_3
age_4.SCORE <- -p*as.numeric(coe[3])*woe.age_4
age_5.SCORE <- -p*as.numeric(coe[3])*woe.age_5
age_6.SCORE <- -p*as.numeric(coe[3])*woe.age_6
age_7.SCORE <- -p*as.numeric(coe[3])*woe.age_7
age_8.SCORE <- -p*as.numeric(coe[3])*woe.age_8
age_9.SCORE <- -p*as.numeric(coe[3])*woe.age_9

age.SCORE <- c(age_1.SCORE,age_2.SCORE,age_3.SCORE,age_4.SCORE,age_5.SCORE,age_6.SCORE,age_7.SCORE,age_8.SCORE,age_9.SCORE)

3、对w_D30Past变量打分

woe.D30Past_1 <- D30Pastresult$ivtable[[13]][1]
woe.D30Past_2 <- D30Pastresult$ivtable[[13]][2] 
woe.D30Past_3 <- D30Pastresult$ivtable[[13]][3]

D30Past_1.SCORE <- -p*as.numeric(coe[4])*woe.D30Past_1
D30Past_2.SCORE <- -p*as.numeric(coe[4])*woe.D30Past_2
D30Past_3.SCORE <- -p*as.numeric(coe[4])*woe.D30Past_3

D30Past.SCORE <- c(D30Past_1.SCORE,D30Past_2.SCORE,D30Past_3.SCORE)

4、对w_DR变量打分

woe.DR_1=getWOE(train$DR,-Inf,0.016)
woe.DR_2=getWOE(train$DR,0.016,0.381)   
woe.DR_3=getWOE(train$DR,0.381,0.503)
woe.DR_4=getWOE(train$DR,0.503,0.666)
woe.DR_5=getWOE(train$DR,0.666,3.972)
woe.DR_6=getWOE(train$DR,3.972,Inf)

DR_1.SCORE <- -p*as.numeric(coe[5])*woe.DR_1
DR_2.SCORE <- -p*as.numeric(coe[5])*woe.DR_2
DR_3.SCORE <- -p*as.numeric(coe[5])*woe.DR_3
DR_4.SCORE <- -p*as.numeric(coe[5])*woe.DR_4
DR_5.SCORE <- -p*as.numeric(coe[5])*woe.DR_5
DR_6.SCORE <- -p*as.numeric(coe[5])*woe.DR_6

DR.SCORE <- c(DR_1.SCORE,DR_2.SCORE,DR_3.SCORE,DR_4.SCORE,DR_5.SCORE,DR_6.SCORE)

5、对 w_Income变量打分

woe.Income_1=getWOE(train$Income,-Inf,3332)
woe.Income_2=getWOE(train$Income,3332,4838)   
woe.Income_3=getWOE(train$Income,4838,6620)
woe.Income_4=getWOE(train$Income,6620,9830)
woe.Income_5=getWOE(train$Income,9830,Inf)

Income_1.SCORE <- -p*as.numeric(coe[6])*woe.Income_1
Income_2.SCORE <- -p*as.numeric(coe[6])*woe.Income_2
Income_3.SCORE <- -p*as.numeric(coe[6])*woe.Income_3
Income_4.SCORE <- -p*as.numeric(coe[6])*woe.Income_4
Income_5.SCORE <- -p*as.numeric(coe[6])*woe.Income_5

Income.SCORE <- c(Income_1.SCORE,Income_2.SCORE,Income_3.SCORE,Income_4.SCORE,Income_5.SCORE)

6、对 w_OCAL变量打分

woe.OCAL_1 <- OCALresult$ivtable[[13]][1]
woe.OCAL_2 <- OCALresult$ivtable[[13]][2] 
woe.OCAL_3 <- OCALresult$ivtable[[13]][3]
woe.OCAL_4 <- OCALresult$ivtable[[13]][4]
woe.OCAL_5 <- OCALresult$ivtable[[13]][5] 
woe.OCAL_6 <- OCALresult$ivtable[[13]][6]
woe.OCAL_7 <- OCALresult$ivtable[[13]][7]

OCAL_1.SCORE <- -p*as.numeric(coe[7])*woe.OCAL_1
OCAL_2.SCORE <- -p*as.numeric(coe[7])*woe.OCAL_2
OCAL_3.SCORE <- -p*as.numeric(coe[7])*woe.OCAL_3
OCAL_4.SCORE <- -p*as.numeric(coe[7])*woe.OCAL_4
OCAL_5.SCORE <- -p*as.numeric(coe[7])*woe.OCAL_5
OCAL_6.SCORE <- -p*as.numeric(coe[7])*woe.OCAL_6
OCAL_7.SCORE <- -p*as.numeric(coe[7])*woe.OCAL_7

OCAL.SCORE <- c(OCAL_1.SCORE,OCAL_2.SCORE,OCAL_3.SCORE,OCAL_4.SCORE,OCAL_5.SCORE,OCAL_6.SCORE,OCAL_7.SCORE)

7 、对w_D90Late变量打分

woe.D90Late_1=getWOE(train$D90Late,-Inf,0)
woe.D90Late_2=getWOE(train$D90Late,0,Inf)

D90Late_1.SCORE <- -p*as.numeric(coe[8])*woe.D90Late_1
D90Late_2.SCORE <- -p*as.numeric(coe[8])*woe.D90Late_2

D90Late.SCORE <- c(D90Late_1.SCORE,D90Late_2.SCORE)

8、对w_RealEstate变量打分

woe.RealEstate_1 <- RealEstateresult$ivtable[[13]][1]
woe.RealEstate_2 <- RealEstateresult$ivtable[[13]][2]
woe.RealEstate_3 <- RealEstateresult$ivtable[[13]][3]
woe.RealEstate_4 <- RealEstateresult$ivtable[[13]][4]

RealEstate_1.SCORE <- -p*as.numeric(coe[9])*woe.RealEstate_1
RealEstate_2.SCORE <- -p*as.numeric(coe[9])*woe.RealEstate_2
RealEstate_3.SCORE <- -p*as.numeric(coe[9])*woe.RealEstate_3
RealEstate_4.SCORE <- -p*as.numeric(coe[9])*woe.RealEstate_4

RealEstate.SCORE <- c(RealEstate_1.SCORE,RealEstate_2.SCORE,RealEstate_3.SCORE,RealEstate_4.SCORE)

9 、对w_D60Past变量打分

woe.D60Past_1 <- getWOE(train$D60Past,-Inf,0)
woe.D60Past_2 <- getWOE(train$D60Past,0,Inf)

D60Past_1.SCORE <- -p*as.numeric(coe[10])*woe.D60Past_1
D60Past_2.SCORE <- -p*as.numeric(coe[10])*woe.D60Past_2

D60Past.SCORE <- c(D60Past_1.SCORE,D60Past_2.SCORE)

10、对w_Dependents变量打分

woe.Dependents_1 <- Dependentsresult$ivtable[[13]][1]
woe.Dependents_2 <- Dependentsresult$ivtable[[13]][2]
woe.Dependents_3 <- Dependentsresult$ivtable[[13]][3]
woe.Dependents_4 <- Dependentsresult$ivtable[[13]][4]

Dependents_1.SCORE <- -p*as.numeric(coe[11])*woe.Dependents_1
Dependents_2.SCORE <- -p*as.numeric(coe[11])*woe.Dependents_2
Dependents_3.SCORE <- -p*as.numeric(coe[11])*woe.Dependents_3
Dependents_4.SCORE <- -p*as.numeric(coe[11])*woe.Dependents_4

Dependents.SCORE <- c(Dependents_1.SCORE,Dependents_2.SCORE,Dependents_3.SCORE,Dependents_4.SCORE)

然后制作一个这样的data.frame，就完成了评分卡的制作：

> score_card
         Characteristic Attribute Points
1  无担保放款的循环利用  <= 0.114     48
2  无担保放款的循环利用  <= 0.227     28
3  无担保放款的循环利用    <= 0.3     21
4  无担保放款的循环利用  <= 0.389      9
5  无担保放款的循环利用  <= 0.493      2
6  无担保放款的循环利用 <= 0.6791    -13
7  无担保放款的循环利用  <= 0.902    -31
8  无担保放款的循环利用   > 0.902    -49
9                  年龄     <= 35    -13
10                 年龄     <= 43     -9
11                 年龄     <= 49     -5
12                 年龄     <= 52     -3
13                 年龄     <= 55      0
14                 年龄     <= 59      6
15                 年龄     <= 63     11
16                 年龄     <= 67     19
17                 年龄      > 67     29
18      30-59天逾期次数      <= 0     17
19      30-59天逾期次数      <= 1    -29
20      30-59天逾期次数       > 1    -60
21             负债比率  <= 0.016     23
22             负债比率  <= 0.381      5
23             负债比率  <= 0.503     -3
24             负债比率  <= 0.666    -16
25             负债比率  <= 3.972    -32
26             负债比率   > 3.972     11
27               月收入   <= 3332     -3
28               月收入   <= 4838     -2
29               月收入   <= 6620      0
30               月收入   <= 9830      1
31               月收入    > 9830      3
32 开放式信贷和贷款数量      <= 2    -10
33 开放式信贷和贷款数量      <= 3     -2
34 开放式信贷和贷款数量      <= 5      0
35 开放式信贷和贷款数量      <= 7      3
36 开放式信贷和贷款数量      <= 8      5
37 开放式信贷和贷款数量     <= 13      2
38 开放式信贷和贷款数量      > 13     -1
39         90天逾期次数       <=0     12
40         90天逾期次数       <=1    -74
41 不动产贷款或额度数量      <= 0     -8
42 不动产贷款或额度数量      <= 1      9
43 不动产贷款或额度数量      <= 2      7
44 不动产贷款或额度数量       > 2    -10
45      60-89天逾期次数       <=0      7
46      60-89天逾期次数       <=1    -54
47             家属数量      <= 0      2
48             家属数量      <= 1     -1
49             家属数量      <= 2     -3
50             家属数量       > 2     -5

over

感谢阅读，欢迎交流！

你可能感兴趣的:(R语言,金融模型,金融,信用评分卡,R语言,金融比赛项目,WOE,逻辑回归)

JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
你的连接不是专用连接攻击者可能试图从 github.com 窃取你的信息(例如，密码、消息或信用卡)。 --解决办法
我遇到了.检查安全软件或企业防火墙/代理(包括VPN)这个问题，关了就好，我是用来xbox加速github，所以先开在关既可以加速又可以访问这个错误表明你的浏览器（MicrosoftEdge）无法安全地连接到GitHub，因为遇到了证书验证问题（NET::ERR_CERT_AUTHORITY_INVALID）。错误信息明确指出网站使用了HSTS（HTTPStrictTransportSecurit
【大模型微调实战】4. P-Tuning爆款文案生成：让模型学会小红书“爽感”写作，转化率提升300% AI_DL_CODE 大模型微调 P-Tuning 小红书文案爆款生成情绪强化自然语言生成提示工程
摘要：在内容营销竞争白热化的当下，普通文案已难以突破流量壁垒。本文聚焦P-Tuning技术在小红书爆款文案生成中的落地应用，通过参数化提示向量优化，将抽象的“爽感”写作转化为可量化、可训练的技术指标。文中提出“六步成文法”，从情绪化数据集构建到爆款元素复刻，完整拆解如何用RTX3060级显卡实现0.1%参数量微调，使文案点击率从2.1%提升至8.7%，爆文率提高5倍，单条文案带货超8万元。核心创新
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
收评：两市震荡沪指涨0.57%创业板指涨1.42% 光伏风能板块大涨甚念_3264
金融界网站9月14日讯早盘三大股指高开，盘初市场震荡上行，创业板指一度涨超2％，随后指数呈现震荡整理态势，临近午盘小幅回落；午后A股延续低迷表现，深成指两度翻绿，尾盘两市小幅上扬。截至收盘，沪指涨0.57％，报3278.81点，深成指涨0.61％，报13021.99点，创业板指涨1.42％，报2572.6点。两市成交额约7700亿元；北向资金净流入近20亿元。行业板块方面，环保工程、材料行业、仪器
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
从零到一：打造基于GigaChat AI的艺术创作平台 | 笙囧同学的全栈开发实战
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯前言在AI技术飞速发展的今天，如何将前沿的大模型技术与实际应用相结合，一直是我们开发者关注的焦点。今天，笙囧同学将带大家从零开始，构建一个基于GigaChatAI的艺术创作平台，实现React前端+Django后端的完整全栈解决方案。这不仅仅是
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

信用评分卡模型（R语言）

贷款风险预测-信用评分卡模型（R语言）

一、变量的描述

二、数据预处理

1.导入数据并预览数据

2. 删除 X 变量

3. 更改变量名称

4. 处理样本均衡

5. 异常值和缺失值的处理

（1）查看数据缺失情况

（2）对各变量进行异常值与缺失值处理

三、变量分析

四、建立模型

1、划分训练集与测试集

2、建logistics回归模型

3、检验多重共线性

五、模型评估

1、返回模型在测试集上的概率值

2、ROC检验

3、KS检验

六、制作评分卡

（一）WOE转换

（二）对各变量进行分箱

（三）用分箱后的woe值替换原来的值：

（四）评分卡的创建和实施

Score = q - p *log(odds)

Score = q - p *log(odds)

评分卡最终样式

制作评分卡代码

Score = q - p *log(odds)

对各变量进行打分

over

感谢阅读，欢迎交流！

你可能感兴趣的:(R语言,金融模型,金融,信用评分卡,R语言,金融比赛项目,WOE,逻辑回归)

2. 删除 `X` 变量