Python打卡DAY7

复习日

针对之前学到的所有知识,针对心脏病项目的数据集来完成数据的预处理。

1.读取文件,了解文件结构特征并进行独热编码
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
data = pd.read_csv('heart.csv')
discrete_data = data.select_dtypes(include=['object']).columns.tolist()
continuous_data = data.select_dtypes(include = ['int64','float64']).columns.tolist()
# 查询有无缺失值
print(f"空值:{data.isnull().sum()}")
# 对离散特征独热编码
data = pd.get_dummies(data, columns=discrete_data)
2.可视化
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.figure(figsize=(12, 4))
plt.subplot(1, 3, 1)
sns.histplot(data['age'], kde=True)
plt.title('age')
plt.xlabel('age')
plt.ylabel('Count')

plt.subplot(1,3,2)
sns.histplot(x='trestbps', hue='sex', data=data, kde=True)
plt.title('静息血压和性别关系')
plt.xlabel('trestbps')
plt.ylabel('Count')

plt.subplot(1,3,3)
sns.violinplot(data = data, x = 'target', y = 'chol')
plt.title('总胆固醇与患病')
plt.xlabel('是否患病')
plt.ylabel('总胆固醇')
plt.show()
3.结果

Python打卡DAY7_第1张图片

@浙大疏锦行

你可能感兴趣的:(浙大疏锦行打卡,python)