数据挖掘笔记(一)

主要是整理自己在数据挖掘课程上所做的一些笔记。
更多内容可以访问我的个人博客。

  1. 数据挖掘介绍

  2. 数据探索


数据挖掘介绍(intro)


  • 历史

从数据中人工提取模式: Bayes理论(1700s) 回归分析(1800s)

  • 为什么进行数据挖掘

(1)已获得的大量数据往往是数据丰富但信息贫乏的
(2)计算设备变得廉价且功能强大
(3)没有强大的工具的话,数据量已经超过人类的理解能力
(4)数据收集存储的速度越来越快
(5)传统技术已经不适用于原始数据
(6)数据挖掘有助于科学研究

  • 什么是数据挖掘

(1)定义:对大量数据进行自动或半自动的探索和分析,以发现有意义的模式。
(2)数据挖掘是知识发现的一个步骤

  • 什么样的数据可以被挖掘

(1)关系型数据库数据
(2)数据仓库
(3)事务(transaction)数据 每一个记录(事务transaction)包含一组项集(items)
(4)时间-空间数据
(5)图以及网状数据(超链接图、社会和信息网络)
(6)超文本和多媒体数据(文本、图像、视频和音频数据)
(7)时间相关序列数据
(8)数据流(监控、传感器)

  • 可以挖掘出什么样的模式

(1)类别/概念描述:特征和区分
(2)挖掘频繁模式(频繁模式通常是指经常出现在事务性数据集中的一组项,挖掘频繁模式可以发现数据中有趣的关联和相关性)、关联关系
(3)使用分类和回归(找到一个描述和区分数据类或概念的模型)进行预测分析
(4)聚类分析
(5)异常分析(离群点分析)

  • 挖掘结果的意义

(1)可能会找到许多无意义的模式
(2)什么叫有意义的模式?:有效性、新的(对系统来说是未知的)、有用的(可以对项集采取动作的)、可理解的(人类能解释的)

  • 使用哪些技术

机器学习、统计、人工智能、数据库、可视化等

  • 应用

(1)确定网页重要性的PageRank算法
(2)用于判断(银行是否应该予以贷款……)
(3)……

  • 数据挖掘中的主要问题

(1)挖掘方法
(2)用户交互
(3)效率与可扩展性
(4)数据库类型的多样性
(5)数据挖掘与社会应用

  • 数据挖掘和机器学习工具

(1)Weka (java)
(2)Scikit-learn (Python)


数据探索(DataExploration)


  • 数据对象和属性类型

(1)数据集由数据对象(也叫样本、实例、数据点等)组成
(2)属性表示一个数据对象的特征,属性也可以称为维度、特性
(3)属性类型:

  • 名词属性(nominal attribute):值是事物的符号或名称

  • 二值属性(binary attribute):只有0或1的取值,其中0常表示不出现,1表示出现。

  • 序数属性(ordinal attribute):属性值有意义上的排序,例如 A+ A- B+……

  • 数值属性(numerical attribute):是可度量的,即以整数或实数表示的可测量的数量,有区间标度比率标度两种类型。

数值属性又分为:

  • 区间标度(interval-scaled)属性(没有真正零值,可以计算差值,不可计算倍数、比率):区间标度属性用相等的单位尺度度量。区间属性的值有序。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差。

    例如,身高属性是区间标度的。A同学身高170cm比B同学165cm高出5cm。对于摄氏温度和华氏温度,其零值不表示没有温度,零值不表示真正零点。例如,摄氏温度的度量单位是水在标准大气压下沸点温度与冰点温度之差的1/100。尽管可以计算温度之差,但因没有真正的零值,因此不能说10℃比5℃温暖2倍,不能用比率描述这些值。

  • 比率标度(ratio-scaled)属性:比率标度属性的度量是比率的,可以用比率来描述两个值,即一个值是另一个值的倍数,也可以计算值之间的差。例如,不同于摄氏和华氏温度,开氏温度具有绝对零点。在零点,构成物质的粒子具有零动能。比率标度属性的例子还包括字数和工龄等计数属性,以及度量重量、高度、速度的属性。

属性的类型取决于它拥有以下属性中的哪一个:

数据挖掘笔记(一)_第1张图片

(4)离散和连续属性

  • 离散属性有限的可数的无限个属性值(发色,饮料类别),如一个属性可能取值的值集合是无限的,但可以建立一个与自然数的一一对应,则其也是离散属性。

  • 连续属性:不是离散的,就是连续的(在文献中常和数值属性Numeric attribute 交替使用)

  • 数据的基本统计描述

基本统计描述可以用来识别数据的属性(集中趋势的量度、数据的分散性)
(1)集中趋势的度量:平均值(Mean),中位数(Median),众数(mode).

  • 平均值(Mean):均值不是鲁棒的测量方法,也就是说,它们对噪声或异常值很敏感。通过去除极值可以得到修整的平均值。而且均值仅可用于数值属性(或连续属性)。

  • 中位数(Median):比均值更鲁棒,可以应用于数值属性,也可以扩展到序数属性。但当有大量的观测数据时,计算中位数代价很高。(大型数据集的近似中位数计算方式如下)

    数据挖掘笔记(一)_第2张图片

  • 众数(mode):数据集的众数是数据集合中最常见的值。众数既可用于名词属性,也可用于数字属性。具有一、二或三种众数的数据集分别称为单峰、双峰和三峰模态。

(2)度量数据的分散性
(2.1)范围、四分位数和四分位距

  • 范围(Range):最大和最小之间的差值

  • 分位数:第k个q分位数是指值x,数据集中的k/q的数值比x小,数据集中(q-k)/q的数值比x大。(0

  • 百分位数(Percentiles):即100-分位数

  • 四分位数(Quartiles):4-分位数

  • 四分位距(Interquartile range (IQR)):IQR = Q3 - Q1(Q3:第三个四分位数,即第75个百分位数;Q1是第一个四分位数,即25%百分位数。)

    数据挖掘笔记(一)_第3张图片

(2.2)方差:(标准差是方差的开方)

数据挖掘笔记(一)_第4张图片

(3)数据可视化
柱状图(histogram)

数据挖掘笔记(一)_第5张图片

箱形图(Box Plots)

数据挖掘笔记(一)_第6张图片

分位图(Quantile Plot)

数据挖掘笔记(一)_第7张图片

散点图(Scatter Plots)

数据挖掘笔记(一)_第8张图片

等高线图(Contour plots)

数据挖掘笔记(一)_第9张图片

平行坐标图(Parallel Coordinates):一个纵坐标表示一个属性,在查看这样的分组时,属性的排序是很重要的。

数据挖掘笔记(一)_第10张图片

星图(Star Plots):与平行坐标图相似,但轴从中心点辐射,连接对象值的线是多边形。

  • 测量数据相似性和差异性

(1)数据矩阵与相异矩阵
具有n个对象,每个对象具有p个属性的数据集可以由n到p的数据矩阵表示:

相异矩阵:

数据挖掘笔记(一)_第11张图片

(2)名词属性的相异度测量:具有名词属性的两个对象xi和xj之间的不同可以根据不匹配的属性数比率来计算:(p是属性总数,m是相等的属性数)

数据挖掘笔记(一)_第12张图片

(3)二元属性的相异度测量:

  • 对称二元相异度:r(s)是i(j)为1,j(i)为0的数量;q是i和j都为1的数目,t是i和j都为0的数目。

  • 数据挖掘笔记(一)_第13张图片

  • 非对称二元相异度:只关心两者都取1的情况,而认为两者都取0的属性并不意味着两者更相似。例如在根据病情对病人聚类时,如果两个人都患有肺癌,我们认为两个人增强了相似度,但如果两个人都没患肺癌,并不觉得这加强了两人的相似性,如果用1减去非对称二元相异度,则得到非对称二元相似度,也叫Jaccard系数。

  • 在这里插入图片描述

(4)数值属性的相异度测量:

  • 欧几里得距离:

    在这里插入图片描述

  • 曼哈顿距离:

    在这里插入图片描述

  • 明可夫斯基距离Minkowski distance:h为2时即欧几里得距离,h为1时即曼哈顿距离

    在这里插入图片描述

(5)有序属性的相异度测量:

序数变量是具有序数意义的分类变量,通常可以按照一定顺序意义排列,如冠军、亚军和季军。对于序数变量,一般为每个值分配一个数,叫做这个值的秩,然后以秩代替原值当做标量属性计算相异度。(分配1,2,3…然后归一化)

(6)混合属性的相异度测量:i和j之间的相异度,f为属性序号,delta是指示器,当xif或者xjf缺失时或xif=xjf=0并且属性f为非对称二元属性时,为0,否则为1(就是把指示器为0的属性去除之后算了个平均值)

数据挖掘笔记(一)_第14张图片

  • 文档表示和文档之间的相似性度量

(1)TF.IDF
(2)将term向量化后,使用余弦相似度

你可能感兴趣的:(机器学习,笔记,机器学习,数据挖掘)