scikit-learn学习

载入数据

在scikit-learn之中,可以使用库中固有的数据,如著名的花朵数据。载入方式如下:

from sklearn import datasets #引入scikit-learn中的数据集

iris = datasets.load_iris() #载入花朵数据

如果想要导入自己的数据的话,可以利用numpy协助。假如你要导入的数据是M行N列。

import numpy as np



f = open("filename.txt")#填入文件路径



f.readline()  # skip the header会自动跳过表头



data = np.loadtxt(f)#得到纯矩阵



X = data[:, 1:]  # select columns 1 through end对矩阵之中的数据进行选择



Y= data[:, 0]   # select column 0, the stock price同上

数据如果是libsvm格式的话,可以这么做

from sklearn.datasets import load_svmlight_file

X_train, y_train = load_svmlight_file("/path/to/train_dataset.txt")#注意路径的正确性

X_train.todense()#将稀疏矩阵转化为完整特征矩阵

你可能感兴趣的:(it)