数据挖掘与R语言——第二章(预测海藻数量)

一、首先介绍两个非常给力的讲 ggplot2 绘图的博客:

http://www.cellyse.com/how_to_use_gggplot2_part1/#comments

http://www.cellyse.com/how_to_use_gggplot2_part2/#comments

http://blog.funature.net/tag/ggplot/

二、代码加注释

####安装依赖包,并加载#####
if (require('DMwR') == 0) {
    install.packages('DMwR')
   
}
if (require('ggplot2') == 0) {
    install.packages('Rcpp')
    install.packages('ggplot2')
}
library('DMwR')
library('ggplot2')

####数据可视化#####
View(head(algae))
summary(algae)
##绘制箱线图并且旋转坐标轴
myp <- ggplot(algae)
myp + geom_boxplot(aes(x = size, y = a1), horizontal = T) + coord_flip()

####缺失值处理#####
##查找非缺失值行
nrow(algae[complete.cases(algae), ])
##查找每行的缺失值的个数 第二个参数 1 表示行 2 表示列(传递给后面的函数)
apply(algae, 2, function(x) sum(is.na(x)))
##缺失值处理一、用次数最多的那个数据填补缺失值
#直接剔除缺失属性比样本个数的20%还要多的样本
dalgae <- algae[-manyNAs(algae, 0.2), ]
#利用样本的中心趋势填充缺失值
dalgae <- centralImputation(algae)
##缺失值处理二、通过变量的相关关系填补缺失值
#计算变量之间的相关关系
cormatrix <- cor(dalgae[, 4:18], use = "complete.obs")
#更加直观的查看
symnum(cormatrix)
##缺失值处理二、通过样本的相似度填补缺失值(第一步:一定要去量纲)
dalgae <- algae[-manyNAs(algae, 0.2), ]
##考虑最近的十个样本,加权平均
dalgae <- knnImputiation(dalgae, 10)
##考虑用中位数填补
dalgae <- knnImputiation(dalgae, 10, meth = "media")

你可能感兴趣的:(数据挖掘与R语言——第二章(预测海藻数量))