主要是整理自己在数据挖掘课程上所做的一些笔记。
更多内容可以访问我的个人博客。
数据挖掘介绍
数据探索
从数据中人工提取模式: Bayes理论(1700s) 回归分析(1800s)
(1)已获得的大量数据往往是数据丰富但信息贫乏的
(2)计算设备变得廉价且功能强大
(3)没有强大的工具的话,数据量已经超过人类的理解能力
(4)数据收集存储的速度越来越快
(5)传统技术已经不适用于原始数据
(6)数据挖掘有助于科学研究
(1)定义:对大量数据进行自动或半自动的探索和分析,以发现有意义的模式。
(2)数据挖掘是知识发现的一个步骤
(1)关系型数据库数据
(2)数据仓库
(3)事务(transaction)数据 每一个记录(事务transaction)包含一组项集(items)
(4)时间-空间数据
(5)图以及网状数据(超链接图、社会和信息网络)
(6)超文本和多媒体数据(文本、图像、视频和音频数据)
(7)时间相关序列数据
(8)数据流(监控、传感器)
(1)类别/概念描述:特征和区分
(2)挖掘频繁模式(频繁模式通常是指经常出现在事务性数据集中的一组项,挖掘频繁模式可以发现数据中有趣的关联和相关性)、关联关系
(3)使用分类和回归(找到一个描述和区分数据类或概念的模型)进行预测分析
(4)聚类分析
(5)异常分析(离群点分析)
(1)可能会找到许多无意义的模式
(2)什么叫有意义的模式?:有效性、新的(对系统来说是未知的)、有用的(可以对项集采取动作的)、可理解的(人类能解释的)
机器学习、统计、人工智能、数据库、可视化等
(1)确定网页重要性的PageRank算法
(2)用于判断(银行是否应该予以贷款……)
(3)……
(1)挖掘方法
(2)用户交互
(3)效率与可扩展性
(4)数据库类型的多样性
(5)数据挖掘与社会应用
(1)Weka (java)
(2)Scikit-learn (Python)
(1)数据集由数据对象(也叫样本、实例、数据点等)组成
(2)属性表示一个数据对象的特征,属性也可以称为维度、特性
(3)属性类型:
名词属性(nominal attribute):值是事物的符号或名称
二值属性(binary attribute):只有0或1的取值,其中0常表示不出现,1表示出现。
序数属性(ordinal attribute):属性值有意义上的排序,例如 A+ A- B+……
数值属性(numerical attribute):是可度量的,即以整数或实数表示的可测量的数量,有区间标度和比率标度两种类型。
数值属性又分为:
区间标度(interval-scaled)属性(没有真正零值,可以计算差值,不可计算倍数、比率):区间标度属性用相等的单位尺度度量。区间属性的值有序。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差。
例如,身高属性是区间标度的。A同学身高170cm比B同学165cm高出5cm。对于摄氏温度和华氏温度,其零值不表示没有温度,零值不表示真正零点。例如,摄氏温度的度量单位是水在标准大气压下沸点温度与冰点温度之差的1/100。尽管可以计算温度之差,但因没有真正的零值,因此不能说10℃比5℃温暖2倍,不能用比率描述这些值。
比率标度(ratio-scaled)属性:比率标度属性的度量是比率的,可以用比率来描述两个值,即一个值是另一个值的倍数,也可以计算值之间的差。例如,不同于摄氏和华氏温度,开氏温度具有绝对零点。在零点,构成物质的粒子具有零动能。比率标度属性的例子还包括字数和工龄等计数属性,以及度量重量、高度、速度的属性。
属性的类型取决于它拥有以下属性中的哪一个:
(4)离散和连续属性
离散属性:有限的或可数的无限个属性值(发色,饮料类别),如一个属性可能取值的值集合是无限的,但可以建立一个与自然数的一一对应,则其也是离散属性。
连续属性:不是离散的,就是连续的(在文献中常和数值属性Numeric attribute 交替使用)
基本统计描述可以用来识别数据的属性(集中趋势的量度、数据的分散性)
(1)集中趋势的度量:平均值(Mean),中位数(Median),众数(mode).
(2)度量数据的分散性:
(2.1)范围、四分位数和四分位距
(2.2)方差:(标准差是方差的开方)
(3)数据可视化
柱状图(histogram)
箱形图(Box Plots)
分位图(Quantile Plot)
散点图(Scatter Plots)
等高线图(Contour plots)
平行坐标图(Parallel Coordinates):一个纵坐标表示一个属性,在查看这样的分组时,属性的排序是很重要的。
星图(Star Plots):与平行坐标图相似,但轴从中心点辐射,连接对象值的线是多边形。
(1)数据矩阵与相异矩阵
具有n个对象,每个对象具有p个属性的数据集可以由n到p的数据矩阵表示:
相异矩阵:
(2)名词属性的相异度测量:具有名词属性的两个对象xi和xj之间的不同可以根据不匹配的属性数比率来计算:(p是属性总数,m是相等的属性数)
(3)二元属性的相异度测量:
(4)数值属性的相异度测量:
(5)有序属性的相异度测量:
序数变量是具有序数意义的分类变量,通常可以按照一定顺序意义排列,如冠军、亚军和季军。对于序数变量,一般为每个值分配一个数,叫做这个值的秩,然后以秩代替原值当做标量属性计算相异度。(分配1,2,3…然后归一化)
(6)混合属性的相异度测量:i和j之间的相异度,f为属性序号,delta是指示器,当xif或者xjf缺失时或xif=xjf=0并且属性f为非对称二元属性时,为0,否则为1(就是把指示器为0的属性去除之后算了个平均值)
(1)TF.IDF
(2)将term向量化后,使用余弦相似度