Python打卡day6 描述性统计

@疏锦行

针对其他特征绘制单特征图和特征和标签的关系图,并且试图观察出一些有意思的结论

单特征可视化

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# 读取数据,这里假设数据文件名为 data.csv,你需要根据实际情况修改文件名
data = pd.read_csv('data.csv')

# 连续变量可视化示例
plt.figure(figsize=(10,6))
sns.histplot(data['Monthly Debt'], kde=True)  # 带核密度曲线的直方图
plt.title('Monthly Debt Distribution')
plt.show()

# 离散特征可视化示例
plt.figure(figsize=(10,6))
sns.countplot(x='Term', data=data)  # 贷款期限分布
plt.title('Loan Term Distribution')
plt.show()

特征与标签关系可视化

# 1. 连续变量与违约关系
plt.figure(figsize=(12,6))
sns.boxplot(x='Credit Default', y='Annual Income', data=data)
plt.title('年收入 vs 信用违约')
plt.show()

# 2. 离散变量与违约关系
plt.figure(figsize=(12,6))
sns.countplot(x='Term', hue='Credit Default', data=data)
plt.title('贷款期限 vs 信用违约')
plt.show()

# 3. 开户数量分组分析
data['Open Accounts Group'] = pd.cut(data['Number of Open Accounts'], 
                                   bins=[0,5,10,15,20,float('inf')],
                                   labels=['0-5','6-10','11-15','16-20','20+'])

plt.figure(figsize=(12,6))
sns.countplot(x='Open Accounts Group', hue='Credit Default', data=data)
plt.title('开户数量分组 vs 信用违约')
plt.show()

你可能感兴趣的:(python学习打卡,python,开发语言,机器学习)