python学习Day5打卡

day5

离散特征的独热编码

先按照示例代码过一遍,然后完成下列题目

现在在py文件中 一次性处理data数据中所有的连续变量和离散变量

1. 读取data数据

import pandas as pd
 
data = pd.read_csv(r"C:\Users\LENOVO\Desktop\daim\data.csv")
 
for desribe_features in data.columns:
    if data[desribe_features].dtype == 'object':
        print(desribe_features)

2. 对离散变量进行one-hot编码

data_encoded = pd.get_dummies(data,columns=['Home Ownership'])
data.columns

3. 对独热编码后的变量转化为int类型

data_encoded['Home Ownership_Have Mortgage'] = data_encoded['Home Ownership_Have Mortgage'].astype(int)
  1. 对所有缺失值进行填充
descrete_lists = []
for descrete_features in data.columns:
    if data[desribe_features].dtype == 'object':
        discrete_lists.append(desribe_features)
 
data_encoded2 = pd.get_dummies(data,columns=descrete_lists,drop_first=True)

注意是py文件中,所以每一步的输出是否正确需要你来使用debugger功能来逐步查看

你可能感兴趣的:(学习)