数据处理

一、识别重复值的方法

1. COUNTIF函数(指定区域中按指定条件对单元格进行计数)

countif(range,criteria)
range 表示条件区域——对单元格进行计数的区域
criteria 表示条件——条件的形式可以是数字、表达式或文本,甚至可以使用通配符。
计数结果大于1说明有重复项

2. 排序关键字段后使用IF函数

  • 排序后重复的数值会上下排列在一起

IF(条件判断, 结果为真返回值, 结果为假返回值)

3.使用数据透视表

  • 需判断的作为值使用,并改为计数

二、去重方法

  1. 数据 - 排序和筛选 -高级
  2. 识别重复行后删除

也可用 PowerQuery 进行重复行的筛选

三、缺失值的处理

查找缺失值

  1. 使用 Ctrl + F
  2. 使用Ctrl + G 定位条件

处理方法

  1. 使用 0 / 均值填充
  2. 统计方法
  3. 删除该类数据或对此不处理

四、处理异常值

数字型无法直接转换成日期,直接强制转化会出错。需要先将其转换成文本,再转日期

数字转文本的方法: 20180925
LEFT(H77,4)&"-"&MID(H77,5,2)&"-"&RIGHT(H77,2)

五、数据标准化及权重

Min-Max标准化

目的是让数据对应的值保持在 0-1 区间内,数量级保持统一可以进行比对

新数据 = (原数据 - 极小值) / (极大值 - 极小值)

使用标准分进行标准化

从排名衡量分数好坏

标准分 = (原始分 - 平均分) / 标准差

加权平均

利用交叉表设置权重

你可能感兴趣的:(数据处理)