机器学习——pandas库使用

DataFrame

关于pandas库中DataFrame的使用,DataFrame表示的是一个有序的表格,DataFrame有自己的行索引和列索引,这与Series不同,Series只有列索引,DataFrame每一列,每一行都可以是不同的数据类型,接下来让我们来看一下DataFrame的使用

创建DataFrame

import pandas as pd
data = pd.DataFrame([[1, 2, 3],
                  [4, 5.9, 6],
                  [1, 2, 3],
                  ['%7', 8, 9]], columns=["feature_1", "feature_2", "label"])
print(data)

效果如下:
机器学习——pandas库使用_第1张图片
这里我们可以看出原数据只有5.9是浮点数,但DataFrame自动的将这个数所在的一列都变成了浮点数,也就可以认为第一列是字符串类型这里我们要查看类型只需要用dtypes方法来查看,
在这里插入图片描述
结果清晰的看出第一列是字符串类型,这里的object我们可以理解为python中的str类型,而第二列也变成了浮点型

关于DataFrame的增删改查

删除

del data["label"]
print(data)

机器学习——pandas库使用_第2张图片
查看字段信息

print(data.info())

机器学习——pandas库使用_第3张图片
查看统计信息

print(data.describe())

机器学习——pandas库使用_第4张图片
注意:因为feature_1是字符串类型所以不能对其进行统计
修改列表名

# data.rename(columns={'label':'feature_3'}, inplace = True)
data1 = data.rename(columns={'label':'feature_3'})
print(data1)

机器学习——pandas库使用_第5张图片
这是修改列表名的两种写法,加上inplace = True就不需要返回值来接收,不加则需要查看的是返回值的信息
替换字符串

data.replace('%', '', inplace=True,regex=True)
print(data)

机器学习——pandas库使用_第6张图片
数据去重

data1 = data.drop_duplicates()
print(data)

在这里插入图片描述
按条件修改元素

data.loc[a['feature_1'] == 1, 'feature_1'] = 0
print(data)

机器学习——pandas库使用_第7张图片

你可能感兴趣的:(机器学习,机器学习,pandas库,DataFrame,增删改查,合并和随机)