头歌python 数据挖掘—数据预处理

第1关:缺失值—中位数填充缺失值

任务描述
本关任务:使用中位数填充缺失值。

# -*- coding: utf-8 -*-
def fill_median(data):
    """填充数据中的缺失值
    参数:
        data - pandas.dataframe格式,原始数据

    返回值:
        processed_data - 填充后的数据
    """
    processed_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    processed_data = data.copy()
    processed_data.fillna(processed_data.median(),inplace=True)
    #********** End ***********#
    return processed_data

第2关:离散化

任务描述
本关任务:将原数据集中的年龄离散化。

# -*- coding: utf-8 -*-
def discretization(data):
    """对连续型数据离散化
     0-17 -> 0
    18-44 -> 1
    45-59 -> 2
    60-   -> 3
    参数:
        data - pandas.dataframe格式,原始数据中的一列

    返回值:
        processed_data - 离散化后的数据
    """
    processed_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    import pandas as pd
    bins = [0,17,44,59,float('inf')]
    labels = [0,1,2,3]
    processed_data = pd.cut(data,bins=bins,labels=labels,include_lowest=True)
    #********** End ***********#
    return processed_data

第3关:规范化—最小最大规范化

任务描述
本关任务:编写程序,将给定的数据进行0-1规范化。

编程任务
本关卡要求你实现函数minmax_normalization,将给定的数据进行0-1规范化。

# -*- coding: utf-8 -*-
def minmax_normalization(data):
    """对给定的某一列数据进行0—1规范化
    参数:
        data - pandas.dataframe格式,原始数据集中的某一列数据
    返回值:
        normalized_data - 0-1规则化后的数据
    """
    normalized_data = data
    #   请在此添加实现代码     #
    #********** Begin *********#
    min_value = data.min()
    max_value = data.max()
    normalized_data = (data - min_value)/(max_value - min_value)
    #********** End ***********#
    return normalized_data

第4关:相关性检验—皮尔森(Pearson)系数

任务描述
本关任务:计算数据中各属性与类别的皮尔森相关性系数。

# -*- coding: utf-8 -*-
def pearson(data_x, data_y):
    """计算某一属性列与类别的相关性
    参数:
        data_x  - pandas.dataframe格式,原始数据集中的某一列数据
        data_y  - pandas.dataframe格式,原始数据集中的类别
    返回值:
        value - pearson系数
    """
    value = 0
    #   请在此添加实现代码     #
    #********** Begin *********#
    import numpy as np
    x = np.array(data_x)
    y = np.array(data_y)
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator_x = np.sqrt(np.sum((x - x_mean) ** 2))
    denominator_y = np.sqrt(np.sum((y - y_mean) ** 2))
    value = numerator / (denominator_x * denominator_y)
    #********** End ***********#
    return ("%.4f" % value)

 

你可能感兴趣的:(python,python)