sk-learn中StratifiedShuffleSplit()函数 实现对数据集的划分

sk-learn中提供了对数据集进行打乱划分的函数,StratifiedShuffleSplit()是非常实用的函数,数据集在进行划分之前,首先是需要进行打乱操作,否则容易产生过拟合,模型泛化能力下降。


sklearn.model_selection.StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=None)

参数  n_splits 是将训练数据分成train/test对的组数,可根据需要进行设置,默认为10

参数test_size和train_size是用来设置train/test对中train和test所占的比例。

*:train_num≥2,test_num≥2 ;test_size+train_size可以小于1*

参数 random_state控制是将样本随机打乱

函数作用描述 
1.其产生指定数量的独立的train/test数据集划分数据集划分成n组。 
2.首先将样本随机打乱,然后根据设置参数划分出train/test对。 
3.其创建的每一组划分将保证每组类比比例相同。即第一组训练数据类别比例为2:1,则后面每组类别都满足这个比例

代码举例:

sk-learn中StratifiedShuffleSplit()函数 实现对数据集的划分_第1张图片

如上代码所示,产生了3组数据,每组都是x,y训练和测试的索引值。

test_size = 0.5,表示测试和训练数据各占一半,train和test的索引值每个都是2

n_splits = 3 ,有三组索引值


我们取最后一组索引值:

sk-learn中StratifiedShuffleSplit()函数 实现对数据集的划分_第2张图片

训练集第0个是[1,2],第2个是[1,2],标签是对应的0,1

测试集第3个是[3,4],第1个是[3,4],标签对应的是1,0

你可能感兴趣的:(函数用法)