亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
在机器学习中,连续数值型特征并不总是最优选择,尤其是在面对一些对数值大小不敏感的模型(如决策树、朴素贝叶斯)时。此时,我们常常希望将连续变量离散化(Discretization),转换成类别特征,便于建模与解释。
Scikit-learn 中的 KBinsDiscretizer
提供了强大灵活的数值离散化功能,本文将重点聚焦于 如何自定义区间标签,以提升模型可读性与解释性。
数值离散化(Discretization),是将连续变量分成有限数量的区间(bins),并为每个区间赋予一个类别或标签。
举个例子:
年龄(Age) | 离散化结果 |
---|---|
23 | 青年 |
45 | 中年 |
67 | 老年 |
离散化方式主要有三类:
from sklearn.preprocessing import KBinsDiscretizer
KBinsDiscretizer
的常用参数如下:
参数 | 说明 |
---|---|
n_bins |
要分的区间个数 |
encode |
输出格式,如 'ordinal' , 'onehot' , 'onehot-dense' |
strategy |
离散化策略:'uniform' 、'quantile' 、'kmeans' |
subsample |
采样数量(用于 kmeans) |
dtype |
返回结果的数据类型 |
import numpy as np
from sklearn.preprocessing import KBinsDiscretizer
data = np.array(