《数据挖掘导论》 第二章数据

第二章 数据

  • 数据类型
  • 数据质量
  • 数据预处理
  • 相似度测量

数据

  • Collection of data objects and their attributes

特征值

  • 数值型的或者描述性的(男/女 --> 0/1)
  • 特征和特征值之间的区别:
    • 相同的属性可能被赋予不同的特征值,如身高的单位可能是米或者英尺
    • 不同的属性可以映射到相同的值集,如ID是无界的,age有最大值和最小值

1. 特征的类型

  • Nominal(标称)
    • Examples: ID numbers, eye color, zip codes
    • 只提供足够的信息以区分对象
    • (= / 不等于)
  • Ordinal(序数)
    • Examples: rankings (e.g., taste of potato chips on a scale from 1-10), grades, height {tall, medium, short}
    • (< / >)
  • Interval(区间)
    • 值之间的差是有意义的
    • Examples: calendar dates, temperatures in Celsius or Fahrenheit.
    • (+/-)
  • Ratio
    • Examples: temperature in Kelvin, l

你可能感兴趣的:(数据挖掘导论,数据挖掘)