大师兄的数据分析学习笔记(二）：探索性数据分析（一）

大师兄的数据分析学习笔记(一）：关于数据分析
大师兄的数据分析学习笔记(三）：探索性数据分析（二）

三、单因子与可视化

1. 集中趋势

集中趋势是数据聚拢位置的一种衡量，主要有以下衡量值：

1.1 均值

符号: 、(样本均值)

1）简单平均数(mean)

公式:
>>>import numpy as np
>>>test_data = [1,2,3,4,1,2,3,1,2,1,5,6,1,1,2]
>>>mean = np.mean(test_data)
>>>print('平均数:', mean)
平均数: 2.3333333333333335
2）加权平均数(Weighted mean)

加权平均数中每个点对于平均数的贡献并不是相等的，有些点要比其他的点更加重要。

公式:

：权重
>>>import numpy as np
>>>def calculate_weighted_mean_np(data):
>>>    t = np.arange(len(data)) 
>>>    result = np.average(data,weights=t)
>>>    return result
>>>if __name__ == '__main__':
>>>   test_data = [1,2,3,4,1,2,3,1,2,1,5,6,1,1,2]
>>>   print('加权平均数:', calculate_weighted_mean_np(test_data))
加权平均数: 2.4095238095238094
3）几何平均数(Geometric mean)

几何平均数通过值的乘积来指示一组数字的集中趋势或典型值。

公式：
>>>import numpy as np
>>>geometric_mean = np.power(np.prod(test_data),1/len(test_data))
>>>print('几何平均数:', geometric_mean)
几何平均数: 1.916473929999829

1.2 中位数

按顺序排列的一组数据中居于中间位置的。
公式：

>>>import numpy as numpy
>>>test_data = [1,2,3,4,1,2,3,1,2,1,5,6,1,1,2]
>>>median = numpy.median(test_data)
>>>print('中位数:',median)
中位数: 2.0

1.3 众数

一组数据中出现最多的值。

>>>import numpy as numpy
>>>def descriptive_mode_numpy(list):
>>>    # [第1步] 获取 所有不重复的变量值 在 变量值列表 中的 出现频数
>>>    frequency_dict=numpy.bincount(list)
>>>    # [第2步] 获取 出现频率 最高的变量值
>>>    return numpy.argmax(frequency_dict)
>>>if __name__ == '__main__':
>>>    test_data = [1,2,3,4,1,2,3,1,2,1,5,6,1,1,2]
>>>    print('众数:',descriptive_mode_numpy(test_data))
众数: 1

1.4 分位数

一组数据排序后处于位置上的值。

>>>import numpy as np
>>>test_data = [1,2,3,4,1,2,3,1,2,1,5,6,1,1,2]
>>>quantile = np.percentile(test_data,(25,75),interpolation='midpoint')
>>>print('下四分位数:', quantile[0])
>>>print('上四分位数:', quantile[1])
下四分位数: 1.0
上四分位数: 3.0

2. 离中趋势

离中趋势是数据离散程度的衡量：

2.1 异众比率(variation ratio)

用来衡量众数对一组数据的代表程度
公式：
：众数组的频数
：总频数

>>>import numpy as np
>>>def calculate_frequency_of_mode(data):
>>>    frequency_dict = np.bincount(data)
>>>    return frequency_dict[np.argmax(frequency_dict)]

>>>def calculate_variation_ratio(data):
>>>    # 计算众数的频数
>>>    frequency_of_mode = calculate_frequency_of_mode(data)
>>>    # 计算异众比率
>>>    result = 1-(frequency_of_mode)/len(data)
>>>    return result
>>>if __name__ == '__main__':
>>>    test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>    print(‘异众比率:’,calculate_variation_ratio(test_data))
异众比率: 0.6

2.2 平均绝对偏差(Mean Absolute Deviation)

各个变量值同平均数的的离差绝对值的算术平均数。
公式：

>>>import numpy as np
>>>def calculate_mean_absolute_deviation(data):
>>>    # 求平均值
>>>    mean = np.mean(data)
>>>    # 求平均差
>>>    result = sum([abs(x - mean) for x in data])/len(data)
>>>    return result
>>>if __name__ == '__main__':
>>>    test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>    print('平均绝对偏差:',calculate_mean_absolute_deviation(test_data))
平均绝对偏差: 1.2444444444444442

2.3 方差(Variance)

描述数据的离散程度，也是数据离其期望值的距离。
总体（样本）方差公式：
样本方差公式：

>>>import numpy as np
>>>test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>variance = np.var(test_data)
>>>print('方差:',variance)
方差: 2.3555555555555556

2.4 标准差(Standard Deviation)

方差的平方根。
公式：

>>>import numpy as np
>>>test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>standard_deviation = np.std(test_data)
>>>print('标准差:',standard_deviation)
标准差: 1.5347819244295118

2.5 标准分数(z-score)

代表着原始分数和母体平均值之间有多少个标准差。
在原始分数低于平均值时Z为负数，反之则为正数。
公式：

>>>import numpy as np
>>>def calculate_zscore(x,data):
>>>    # 求平均值
>>>    mean = np.mean(data)
>>>    # 求标准差
>>>    std = np.std(data)
>>>    # 计算z-score
>>>    result = (x-mean)/std
>>>    return result
>>>if __name__ == '__main__':
>>>    test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>    print('标准分数:',calculate_zscore(test_data[0],test_data))
标准分数: -0.8687444855261388

2.6 四分位距(interquartile range)

与方差、标准差一样，表示统计资料中各变量分散情形，但四分差更多为一种稳健统计。
公式：

>>>import numpy as np
>>>def calculate_QPR(data):
>>>    # 获取上下四分位数
>>>    Q_L = np.quantile(data,0.25,interpolation='lower')
>>>    Q_U = np.quantile(data,0.75,interpolation='higher')
>>>    result = Q_U - Q_L
>>>    return result
>>>if __name__ == '__main__':
>>>    test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>    print('四分位距:',calculate_QPR(test_data))
四分位距: 2

2.7 离散系数(coefficient of variation)

是概率分布离散程度的一个归一化量度。
只在平均值不为零时有定义，而且一般适用于平均值大于零的情况。
公式：

>>>import numpy as np
>>>def calculate_coefficient_of_variation(data):
>>>    # 计算平均差
>>>    std = np.std(data)
>>>    # 计算平均值
>>>    mean = np.mean(data)
>>>    # 计算离散系数
>>>    result = std/abs(mean)
>>>    return result
>>>if __name__ == '__main__':
>>>    test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>    print('离散系数:',calculate_coefficient_of_variation(test_data))
离散系数: 0.6577636818983621

大师兄的数据分析学习笔记(二）：探索性数据分析（一）

三、单因子与可视化

1. 集中趋势

1.1 均值

1.2 中位数

1.3 众数

1.4 分位数

2. 离中趋势

2.1 异众比率(variation ratio)

2.2 平均绝对偏差(Mean Absolute Deviation)

2.3 方差(Variance)

2.4 标准差(Standard Deviation)

2.5 标准分数(z-score)

2.6 四分位距(interquartile range)

2.7 离散系数(coefficient of variation)

你可能感兴趣的:(大师兄的数据分析学习笔记(二）：探索性数据分析（一）)