Wendy1441

Python中的第三方库（Pandas）

1 引入

2 安装

3 内置数据结构

4 Series

4.1 创建Series对象

4.1.1 创建Series空对象

4.1.2 ndarry创建Series对象

4.1.3 字典创建Series对象

4.2 访问Series数据

4.3 Series遍历

4.3.1 使用items()

4.3.2 使用index属性

4.3.3 使用values属性

4.4 Series常用方法

5 DataFrame

5.1 创建DataFrame对象

5.1.1 创建DataFrame空对象

5.1.2 列表嵌套字典创建DataFrame对象

5.1.3字典嵌套列表创建DataFrame对象

5.1.4 Series创建DataFrame对象

5.2 列索引操作

5.2.1 选取数据

5.2.2 添加数据

5.2.3 修改数据

5.2.4 删除数据

5.3 行索引操作

5.3.1 loc选取数据

5.3.2 iloc选取数据

5.3.3 切片多行选取

5.3.4 添加数据行

5.3.5 删除数据行

6 函数

6.1 常用的统计学函数

6.2 重置索引

6.3 遍历

6.3.1 遍历行

6.3.2 遍历列

6.3.3 使用属性遍历

6.4 排序

6.4.1 sort_index

6.4.2 sort_values

6.5 去重

6.6 分组

6.6.1 groupby

6.6.2 filter

6.7 合并

6.8 随机抽样

6.9 空值处理

6.9.1 检测空值

6.9.2 填充空值

6.9.3 删除空值

7 读取CSV文件

7.2 read_csv()

8 绘图

1 引入

Pandas 是一个开源的第三方 Python 库，从 Numpy 和 Matplotlib 的基础上构建而来

2 安装

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/

3 内置数据结构

数据结构	维度	说明
Series	1	该结构能够存储各种数据类型，比如字符数、整数、浮点数、Python 对象等，Series 用 name 和 index 属性来描述数据值。Series 是一维数据结构，因此其维数不可以改变
DataFrame	2	DataFrame 是一种二维表格型数据的结构，既有行索引，也有列索引。行索引是 index，列索引是 columns。在创建该结构时，可以指定相应的索引值

4 Series

函数名	参数
pandas.Series(data,index,dtype,copy)	data：一组数据（ndarray 类型） index：数据索引标签，如果不指定，默认从 0 开始 dtype：数据类型，默认会自己判断 copy：表示对 data 进行拷贝，默认为 False

函数名

参数

pandas.Series(data,index,dtype,copy)

data：一组数据（ndarray 类型） index：数据索引标签，如果不指定，默认从 0 开始

dtype：数据类型，默认会自己判断 copy：表示对 data 进行拷贝，默认为 False

结构图：

0、1、2 表示行索引
李四、王五、张三表示数据值
dtype 表示数据值的类型

4.1 创建Series对象

4.1.1 创建Series空对象

案例：

# 创建空Series对象
s = pd.Series()
print(s) # 输出 Series([], dtype: object)

# 通过python列表创建
s = pd.Series([1,2,3,4,5])
print(s)

输出：

0    1
1    2
2    3
3    4
4    5
dtype: int64

4.1.2 ndarry创建Series对象

案例：

# ndarry创建Series
s = pd.Series(np.array([1,2,3,4,5]))
print(s)

输出：

0    1
1    2
2    3
3    4
4    5
dtype: int32

4.1.3 字典创建Series对象

案例：

# 字典创建Series:字典中的Key是Series的标签名，Value是Series的值
dic = {"id":1,"age":20,"name":"zhangsan"}
s = pd.Series(dic)
print(s)

输出：

id             1
age           20
name    zhangsan
dtype: object

4.2 访问Series数据

案例：

s = pd.Series([1,2,3,4,5,6])
print(s[3]) # 输出 4
# 使用下标做切片时，终止值不被包含
print(s[:2]) 

# 输出
# 0    1
# 1    2
# dtype: int64

s = pd.Series([1,2,3,4],index=['a','b','c','d'])
print(s)
# 输出
# a    1
# b    2
# c    3
# d    4
# dtype: int64
print(s['d']) # 输出 4
# 使用终止值做切片时，终止值被包含
print(s['a':'c'])

# 输出
# a    1
# b    2
# c    3
# dtype: int64

4.3 Series遍历

4.3.1 使用items()

案例：

# 使用items()遍历，返回index和value
s = pd.Series([1,2,3,4],index=['a','b','c','d'])
for idx,val in s.items():
    print(idx,val)

# 输出
# a
# b
# c
# d

4.3.2 使用index属性

案例：

# 1.使用index遍历
s = pd.Series([1,2,3,4],index=['a','b','c','d'])
# index:获取标签
for idx in s.index:
    print(idx)

# 输出
# a
# b
# c
# d

4.3.3 使用values属性

案例：

v# 2.使用Values遍历
s = pd.Series([1,2,3,4],index=['a','b','c','d'])
for v in s.index:
    print(v)

# 输出
# a
# b
# c
# d

4.4 Series常用方法

方法名	说明
isnull()	如果为值不存在或者缺失，则返回 True
notnull()	如果值不存在或者缺失，则返回 False

案例：

import pandas as pd

'''
    isnull() 和 nonull() 用于检测 Series 中的缺失值
        isnull()：如果为值不存在或者缺失，则返回 True
        notnull()：如果值不存在或者缺失，则返回 False
'''
def eight():
    result = pd.Series(['a','b','c','d','e','f',None])
    print("isnull()如果为值不存在或者缺失，则返回 True：")
    print(result.isnull())
    print("notnull()如果值不存在或者缺失，则返回 False：")
    print(result.notnull())
    #过滤掉缺失值
    print(result[result.notnull()])

输出：

isnull()如果为值不存在或者缺失，则返回 True：
0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool
notnull()如果值不存在或者缺失，则返回 False：
0     True
1     True
2     True
3     True
4     True
5     True
6    False
dtype: bool
0    a
1    b
2    c
3    d
4    e
5    f
dtype: object

5 DataFrame

5.1 创建DataFrame对象

5.1.1 创建DataFrame空对象

案例：

# 创建DataFrame对象
df = pd.DataFrame()
print(df)

# 输出
# Empty DataFrame
# Columns: []
# Index: []

5.1.2 列表嵌套字典创建DataFrame对象

案例：

# # 列表嵌套字典创建
# # 如果字典中有不同的键值对，则创建DataFram时取所有字典中键值对的并集
l = [{"name":"zhangsan","age":20,"address":"1111"},{"name":"lisi","age":21,"sex":0}]
df = pd.DataFrame(l)
print(df)

# 输出
#        name  age address  sex
# 0  zhangsan   20    1111  NaN
# 1      lisi   21     NaN  0.0

5.1.3字典嵌套列表创建DataFrame对象

案例：

# # 字典嵌套列表来创建
# # 字典中value数组的长度要一致
dic = {"name":["zhangsan","lisi"],"age":[20,22]}
df = pd.DataFrame(dic)
print(df)

# 输出
#        name  age
# 0  zhangsan   20
# 1      lisi   22

5.1.4 Series创建DataFrame对象

案例：

# 字典嵌套Series创建
# 字典中value使用Series时，如果有字段的行有缺失，则默认填充NaN
dic = {"name":pd.Series([1,2,3],index=['a','b','c']),
       "age":pd.Series([10,20,30],index=['a','b','c'])}
df = pd.DataFrame(dic)
print(df)
# 输出
#    name  age
# a     1   10
# b     2   20
# c     3   30
#
dic = {"name":pd.Series(["zhangsan","lisi","wnagwu"],index=['a','b','c']),
       "sex":pd.Series(["nan","nv","nan","nv"],index=['a','b','c','d'])}

df = pd.DataFrame(dic)
print(df)
# 输出
#        name  sex
# a  zhangsan  nan
# b      lisi   nv
# c    wnagwu  nan
# d       NaN   nv

5.2 列索引操作

5.2.1 选取数据

案例：

# 获取数据
dic = {"one":[1,2,3,4,5],
       "two":[6,7,8,9,10],
       "three":[11,12,13,14,15]}
df = pd.DataFrame(dic)
print(df)
# 取一列返回Series
print(df['one'])
# 取多列返回DataFrame
print(df[['one','two']])
# 不能直接对列做切片操作，可以通过loc或iloc实现
# print(df['one':'three'])

输出：

   one  two  three
0    1    6     11
1    2    7     12
2    3    8     13
3    4    9     14
4    5   10     15
0    1
1    2
2    3
3    4
4    5
Name: one, dtype: int64
   one  two
0    1    6
1    2    7
2    3    8
3    4    9
4    5   10

5.2.2 添加数据

案例1，添加一个空列：

# 添加一个空列
data = {"one":pd.Series([1,2,3],index=['a','b','c']),
        "two":pd.Series([5,6,7,8],index=['a','b','c','d'])}
df = pd.DataFrame(data)
print(df)
df['three']=None
print(df)

输出：

# 添加一个空列
data = {"one":pd.Series([1,2,3],index=['a','b','c']),
        "two":pd.Series([5,6,7,8],index=['a','b','c','d'])}
df = pd.DataFrame(data)
print(df)
df['three']=None
print(df)

案例2，通过列表添加一列：

# 通过列表添加一列
data = {"one":pd.Series([1,2,3],index=['a','b','c']),
        "two":pd.Series([5,6,7,8],index=['a','b','c','d'])}
df = pd.DataFrame(data)

df['three']=[10,20,30,40]
print(df)

输出：

   one  two  three
a  1.0    5     10
b  2.0    6     20
c  3.0    7     30
d  NaN    8     40

案例3，使用insert方法：

# # insert():在指定位置插入数据
# # 参数：loc-要插入的索引下标，coloumn-要插入的列名，value-要插入的数据
data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8],
    "C":[9,10,11,12]
}
df  =pd.DataFrame(data)
df.insert(1,'D',[13,14,15,16])
print(df)

输出：

   A   D  B   C
0  1  13  5   9
1  2  14  6  10
2  3  15  7  11
3  4  16  8  12

案例4，使用asign()方法：

# # 通过assign():参数是赋值语句，等号左边是要添加的列名，右边是要添加的值
# # assign()是链式调用
# 链式编程：方法返回的数据类型是对象本身，这种方式就是链式编程，连续调用链式编程的方法叫链式调用
data = {"one":pd.Series([1,2,3],index=['a','b','c']),
        "two":pd.Series([5,6,7,8],index=['a','b','c','d'])}
df = pd.DataFrame(data)
df1 = df.assign(three=[10,20,30,40]).assign(four=[1,2,3,4])
print(df1)

输出：

   one  two  three  four
a  1.0    5     10     1
b  2.0    6     20     2
c  3.0    7     30     3
d  NaN    8     40     4

5.2.3 修改数据

案例1，修改数据：

# # 修改数据
data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8]
}
df =pd.DataFrame(data)
print(df.dtypes)
df['A'] = df['A'].astype(np.float32)
print(df.dtypes)
df['B'] = [10,11,12,13]
print(df)
df['B'] = df['A'] + 100
print(df)

输出：

A    int64
B    int64
dtype: object
A    float32
B      int64
dtype: object
     A   B
0  1.0  10
1  2.0  11
2  3.0  12
3  4.0  13
     A      B
0  1.0  101.0
1  2.0  102.0
2  3.0  103.0
3  4.0  104.0

案例2，修改列名：

data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8]
}
df =pd.DataFrame(data)
# 修改列名
# 1.column属性修改列名，在原数据上直接修改
df.columns = ['C','D']
print(df)
# # 2.rename()修改列名，返回一个新的DataFramem,原数据不受影响
# # columns的数据类型是字典，字典的key是原DataFrame的列名，value是要修改的列名
df1 = df.rename(columns={"C":"E","D":"F"})
print(df1)

输出：

5.2.4 删除数据

通过drop方法删除 DataFrame 中的数据，默认情况下，drop() 不会修改原 DataFrame，而是返回一个新的 DataFrame。

语法：

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

参数名	类型	描述
labels	单个标签或列表。	要删除的行或列的标签。如果 axis=0，则 labels 表示行标签；如果 axis=1，则 labels 表示列标签。
axis	整数或字符串，默认为 0	指定删除的方向。axis=0 或 axis='index' 表示删除行，axis=1 或 axis='columns' 表示删除列。
index	单个标签或列表，默认为 None	要删除的行的标签。如果指定，则忽略 labels 参数。
columns	单个标签或列表，默认为 None	要删除的列的标签。如果指定，则忽略 labels 参数。
level	整数或级别名称，默认为 None	用于多级索引（MultiIndex），指定要删除的级别。
inplace	布尔值，默认为 False	如果为 True，则直接修改原 DataFrame，而不是返回一个新的 DataFrame。
errors	字符串，默认为 'raise'	指定如何处理不存在的标签。'raise' 表示抛出错误，'ignore' 表示忽略错误。

案例1，删除列：

# 删除数据
# drop()
# 参数
# labels:要删除标签（行/列）
# axis:轴方向，和labels结合使用，axis=0,labels是行标签，axis=1,labels是列标签
# index:要删除的行标签或列表
# columns:要删除的列标签或列表
# inplace:如果为True,表示原地修改标签，为False表示返回一个新的DataFrame，默认为False
data = {
    'A':[1,2,3,4,5],
    'B':[6,7,8,9,10]
}
df = pd.DataFrame(data)
# 使用labels和axis删除列
df1 = df.drop(['A'],axis=1)
print("df1:",df1)
# 使用columns删除列
df2 = df.drop(columns=['A'])
print("df2:",df2)

"""
df1:     B
0   6
1   7
2   8
3   9
4  10
df2:     B
0   6
1   7
2   8
3   9
4  10
"""

案例2，删除行：

# 使用labels和axis删除行
df3 = df.drop([0,1],axis=0)
print("df3:",df3)
# 使用index删除行
df4 = df.drop(index=[0,1])
print("df4:",df4)

"""
df3:    A   B
2  3   8
3  4   9
4  5  10
df4:    A   B
2  3   8
3  4   9
4  5  10
"""

案例3，直接删除原DataFrame的行或列：

# 原地修改:inplace
df.drop(index=[0],inplace=True)
print("原地修改:",df)

"""
原地修改:    A   B
1  2   7
2  3   8
3  4   9
4  5  10
"""

5.3 行索引操作

5.3.1 loc选取数据

df.loc[] 只能使用标签索引，不能使用整数索引。当通过标签索引的切片方式来筛选数据时，它的取值前闭后闭，也就是只包括边界值标签（开始和结束）

loc方法返回的数据类型：

1.如果选择单行或单列，返回的数据类型为Series

2.选择多行或多列，返回的数据类型为DataFrame

3.选择单个元素(某行某列对应的值)，返回的数据类型为该元素的原始数据类型（如整数、浮点数等）。

语法：

DataFrame.loc[row_indexer, column_indexer]

参数：

row_indexer：行标签或布尔数组。
column_indexer：列标签或布尔数组。

案例：

# 获取行
data = {
    'A':[1,2,3,4],
    'B':[5,6,7,8],
    'C':[9,10,11,12]
}

df = pd.DataFrame(data,index=['a','b','c','d'])
print(df)
#
# # 获取a行数据
print(df.loc['a'])
# # 对行切片，获取a行到c行数据
print(df.loc['a':'c'])
# # 对行和列切片
print(df.loc['a':'c','A':'B'])
# # 对列切片
print(df.loc[...,'A':'B'])

"""
   A  B   C
a  1  5   9
b  2  6  10
c  3  7  11
d  4  8  12
A    1
B    5
C    9
Name: a, dtype: int64
   A  B   C
a  1  5   9
b  2  6  10
c  3  7  11
   A  B
a  1  5
b  2  6
c  3  7
   A  B
a  1  5
b  2  6
c  3  7
d  4  8
"""

# 获取一个标量
print(df.loc['a','B']) # 输出 5
# 获取多行多列
print(df.loc[['a','c'],['A','C']])

"""
   A   C
a  1   9
c  3  11
"""

5.3.2 iloc选取数据

iloc 方法用于基于位置（integer-location based）的索引，即通过行和列的整数位置来选择数据。

语法：

DataFrame.iloc[row_indexer, column_indexer]

案例：

# iloc[row_index,col_index]:根据索引获取数据
# row_index:行索引下标。col_index：列索引下标
data = {
    'A':[1,2,3,4],
    'B':[5,6,7,8],
    'C':[9,10,11,12]
}
df = pd.DataFrame(data,index=['a','b','c','d'])

# 获取单行，获取第0行数据
print(df.iloc[0])
# 行切片，不包含终止端
print(df.iloc[0:2])
# 行和列切片
print(df.iloc[0:2,0:2])
# 列切片
print(df.iloc[:,0:2])
# 获取标量
print(df.iloc[0,0])
# 获取多行多列
print(df.iloc[[0,1],[0,1]])

"""
A    1
B    5
C    9
Name: a, dtype: int64
   A  B   C
a  1  5   9
b  2  6  10
   A  B
a  1  5
b  2  6
   A  B
a  1  5
b  2  6
c  3  7
d  4  8
1
   A  B
a  1  5
b  2  6
"""

5.3.3 切片多行选取

通过切片的方式进行多行数据的选取

案例：

# DataFrame切片操作，默认按行进行切片，操作结果和iloc一致
df1 = df[0:2]
print(df1)

"""
   A  B   C
a  1  5   9
b  2  6  10
"""

切片获取行和通过iloc方法获取行从结果上没有区别，切片是基于位置的切片操作，iloc是基于位置的索引操作。

5.3.4 添加数据行

loc方法添加数据行：

案例：

# 1.loc添加
data = {
    'A':[1,2,3,4],
    'B':[5,6,7,8]
}
df = pd.DataFrame(data,index=['a','b','c','d'])
# 通过loc添加一个新的行标签，赋值即可，赋值的列表中的元素和列数一致
df.loc['e']=[9,10]
print(df)

"""
   A   B
a  1   5
b  2   6
c  3   7
d  4   8
e  9  10
"""

# iloc添加数据报错：IndexError: iloc cannot enlarge its target object
# data = {
#     'A':[1,2,3,4],
#     'B':[5,6,7,8]
# }
# df = pd.DataFrame(data)
# print(df)
# df.iloc[4] = [9,10]
# print(df)

concat拼接：

语法：

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)

参数：

参数名	说明
objs	要连接的 DataFrame 或 Series 对象的列表或字典。
axis	指定连接的轴，0 或 'index' 表示按行连接，1 或 'columns' 表示按列连接。
join	指定连接方式，'outer' 表示并集（默认），'inner' 表示交集。
ignore_index	如果为 True，则忽略原始索引并生成新的索引。
keys	用于在连接结果中创建层次化索引。
levels	指定层次化索引的级别。
names	指定层次化索引的名称。
verify_integrity	如果为 True，则在连接时检查是否有重复索引。
sort	如果为 True，则在连接时对列进行排序。
copy	如果为 True，则复制数据。

案例1，按行连接(垂直堆叠)：

df1 = pd.DataFrame({
    'A':[1,2,3],
    'B':[4,5,6]
})
df2 = pd.DataFrame({
    'A':[7,8,9],
    'B':[10,11,12]
})
# 按行拼接
# ignore_index：如果为True,则忽略原来的行标签，重新生成
df3 = pd.concat([df1,df2],axis=0,ignore_index=True)
print(df3)

"""
   A   B
0  1   4
1  2   5
2  3   6
3  7  10
4  8  11
5  9  12
"""

案例2，按列连接：

# 按列拼接
df1 = pd.DataFrame({
    'A':[1,2,3],
    'B':[4,5,6]
})
df2 = pd.DataFrame({
    'C':[9,10,11],
    'D':[12,13,14],
})
# 默认按照join=outer进行拼接
df3 = pd.concat([df1,df2],axis=0)
print(df3)

"""
     A    B     C     D
0  1.0  4.0   NaN   NaN
1  2.0  5.0   NaN   NaN
2  3.0  6.0   NaN   NaN
0  NaN  NaN   9.0  12.0
1  NaN  NaN  10.0  13.0
2  NaN  NaN  11.0  14.0
"""

案例3，使用ignore_index:

# 创建两个示例 DataFrame
df1 = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

df2 = pd.DataFrame({
    'A': [7, 8, 9],
    'B': [10, 11, 12]
})

# 按行连接 df1 和 df2，并忽略原始索引
result = pd.concat([df1, df2], axis=0, ignore_index=True)

print(result)

案例4，使用join='inner'，按行合并：

# join：拼接方式：outer-并集（默认），inner-交集
df1 = pd.DataFrame({
    'A':[1,2,3],
    'B':[4,5,6]
})
df2 = pd.DataFrame({
    'A':[7,8,9],
    'B':[10,11,12],
    'C':[13,14,15]
})
# 默认按照join=outer进行拼接
df3 = pd.concat([df1,df2],axis=0)
print(df3)
"""
   A   B     C
0  1   4   NaN
1  2   5   NaN
2  3   6   NaN
0  7  10  13.0
1  8  11  14.0
2  9  12  15.0
"""
# 按照交集拼接，取df1和df2共同的列，多余的丢弃
df4 = pd.concat([df1,df2],axis=0,join='inner')
print(df4)

案例5，DataFrame和Series连接：

# DataFrame和Series拼接、
df = pd.DataFrame({
    'A':[1,2,3],
    'B':[4,5,6]
})

s = pd.Series([7,8,9],name='C')
df1 = pd.concat([df,s],axis=0)
print(df1)
"""
     A    B    C
0  1.0  4.0  NaN
1  2.0  5.0  NaN
2  3.0  6.0  NaN
0  NaN  NaN  7.0
1  NaN  NaN  8.0
2  NaN  NaN  9.0
"""
df2 = pd.concat([df,s],axis=1)
print(df2)
"""
   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
"""

5.3.5 删除数据行

同删除数据列一样，省略。

6 函数

6.1 常用的统计学函数

函数名称	描述说明
count()	统计某个非空值的数量
sum()	求和
mean()	求平均值
median()	求中位数
std()	求标准差
min()	求最小值
max()	求最大值
abs()	求绝对值
prod()	求所有数值的乘积

案例：

# 统计函数
# 方差:pandas默认是样本方差
data = {
    'A':[1,2,3,4,5],
    'B':[10,20,30,40,50],
    'C':[100,200,300,400,500]
}
df = pd.DataFrame(data)
print(df.var())
"""
A        2.5
B      250.0
C    25000.0
dtype: float64
"""
# 平均值
print(df.mean())
"""
dtype: float64
A      3.0
B     30.0
C    300.0
"""
# 求和
print(df.sum())
"""
dtype: float64
A      15
B     150
C    1500
dtype: int64
"""

6.2 重置索引

重置索引（reindex）可以更改原 DataFrame 的行标签或列标签，并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。通过重置索引操作，您可以完成对现有数据的重新排序。如果重置的索引标签在原 DataFrame 中不存在，那么该标签对应的元素值将全部填充为 NaN。

案例：

# 重置索引
# reindex():重置索引的位置，也可以添加新的索引标签，元素值默认填充NaN
data = {
    'A':[1,2,3],
    'B':[4,5,6],
    'C':[7,8,9]
}
df = pd.DataFrame(data,index=['a','b','c'])
# 重置行索引
new_index = ['b','a','c','d']
df1 = df.reindex(index=new_index)
print(df1)
"""
     A    B    C
b  2.0  5.0  8.0
a  1.0  4.0  7.0
c  3.0  6.0  9.0
d  NaN  NaN  NaN
"""
# 重置列索引
new_col = ['A','B','C','D']
df2 = df.reindex(columns=new_col)
print(df2)
"""
   A  B  C   D
a  1  4  7 NaN
b  2  5  8 NaN
c  3  6  9 NaN
"""
# method:填充方式,ffill-前向填充，bfill-后向填充
df3 = df.reindex(columns=new_col,method='ffill')
print(df3)
"""
   A  B  C  D
a  1  4  7  7
b  2  5  8  8
c  3  6  9  9
"""
# fill_value:使用指定值填充
df4 = df.reindex(columns=new_col,fill_value=0)
print(df4)
"""
   A  B  C  D
a  1  4  7  0
b  2  5  8  0
c  3  6  9  0
"""

6.3 遍历

DataFrame 这种二维数据表结构，遍历会获取列标签

案例1：

import pandas as pd

series_data = pd.Series(['a','b','c','d','e','f',None])

print('Series：')
for item in series_data:
    print(item, end=' ')
    
#输出：
a b c d e f None

案例2：

import pandas as pd

series_data = pd.Series(['a','b','c','d','e','f',None])

print('Series：')
for item in series_data:
    print(item, end=' ')
    
#输出：
a b c d e f None

6.3.1 遍历行

itertuples() 方法用于遍历 DataFrame 的行，返回一个包含行数据的命名元组。它是遍历 DataFrame 的推荐方法，因为它在速度和内存使用上都更高效。

案例：

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['a', 'b', 'c'])

# 使用 itertuples() 遍历行
for row in df.itertuples():
    print(row)
    for i in row:
        print(i)
#输出：
Pandas(Index='a', A=1, B=4, C=7)
a
1
4
7
Pandas(Index='b', A=2, B=5, C=8)
b
2
5
8
Pandas(Index='c', A=3, B=6, C=9)
c
3
6
9
# 忽略索引
for row in df.itertuples(index=False):
    print(row)
    for i in row:
        print(i)

6.3.2 遍历列

items() 方法用于遍历 DataFrame 的列，返回一个包含列名和列数据的迭代器。

案例：

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['a', 'b', 'c'])

# 使用 items() 遍历列
for column_name, column_data in df.items():
    print(f"Column Name: {column_name}, Column Data: {column_data}")
#输出：
Column Name: A, Column Data: a    1
b    2
c    3
Name: A, dtype: int64
Column Name: B, Column Data: a    4
b    5
c    6
Name: B, dtype: int64
Column Name: C, Column Data: a    7
b    8
c    9
Name: C, dtype: int64

6.3.3 使用属性遍历

loc 和 iloc 方法可以用于按索引或位置遍历 DataFrame 的行和列。

案例：

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['a', 'b', 'c'])

# 使用 loc 遍历行和列
for index in df.index:
    for column in df.columns:
        print(f"Index: {index}, Column: {column}, Value: {df.loc[index, column]}")
        
        
# 输出：
Index: a, Column: A, Value: 1
Index: a, Column: B, Value: 4
Index: a, Column: C, Value: 7
Index: b, Column: A, Value: 2
Index: b, Column: B, Value: 5
Index: b, Column: C, Value: 8
Index: c, Column: A, Value: 3
Index: c, Column: B, Value: 6
Index: c, Column: C, Value: 9

6.4 排序

6.4.1 sort_index

sort_index 方法用于对 DataFrame 或 Series 的索引进行排序。

语法：

DataFrame.sort_index(axis=0, ascending=True, inplace=False)
Series.sort_index(axis=0, ascending=True, inplace=False)

参数：

参数名	说明
axis	指定要排序的轴。默认为 0，表示按行索引排序。如果设置为 1，将按列索引排序。
ascending	布尔值，指定是升序排序（True）还是降序排序（False）。
inplace	布尔值，指定是否在原地修改数据。如果为 True，则会修改原始数据；如果为 False，则返回一个新的排序后的对象。

案例：

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}
df = pd.DataFrame(data, index=['b', 'c', 'a'])

# 按行索引标签排序，不对对应的值排序
df_sorted = df.sort_index()
#输出：
   A  B  C
a  3  6  9
b  1  4  7
c  2  5  8

#按列索引标签降序排序
df_sorted = df.sort_index(axis=1,ascending=False)
print(df_sorted)
# 输出：
   C  B  A
b  7  4  1
c  8  5  2
a  9  6  3

6.4.2 sort_values

sort_values 方法用于根据一个或多个列的值对 DataFrame 进行排序。

语法：

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')

参数：

参数名	说明
by	列的标签或列的标签列表。指定要排序的列。
axis	指定沿着哪个轴排序。默认为 0，表示按行排序。如果设置为 1，将按列排序。
ascending	布尔值或布尔值列表，指定是升序排序（True）还是降序排序（False）。可以为每个列指定不同的排序方向。
inplace	布尔值，指定是否在原地修改数据。如果为 True，则会修改原始数据；如果为 False，则返回一个新的排序后的对象。
kind	排序算法。默认为 'quicksort'，也可以选择 'mergesort'(归并排序) 或 'heapsort'(堆排序)。
na_position	指定缺失值（NaN）的位置。可以是 'first' 或 'last'。

案例：

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [3, 2, 1],
    'B': [6, 5, 4],
    'C': [9, 8, 7]
}
df = pd.DataFrame(data, index=['b', 'c', 'a'])

# 按列 'A' 排序
df_sorted = df.sort_values(by='A')
print(df_sorted)

# 按列 'A' 和 'B' 排序
df_sorted = df.sort_values(by=['A', 'B'])
print(df_sorted)

# 按列 'A' 降序排序
df_sorted = df.sort_values(by='A', ascending=False)
print(df_sorted)

# 按列 'A' 和 'B' 排序，先按A列降序排序，如果A列中值相同则按B列升序排序
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [25, 30, 25, 35, 30],
    'Score': [85, 90, 80, 95, 88]
})
df_sorted = df.sort_values(by=['Age', 'Score'], ascending=[False, True])
print(df_sorted)

6.5 去重

drop_duplicates 方法用于删除 DataFrame 或 Series 中的重复行或元素。

语法：

drop_duplicates(by=None, subset=None, keep='first', inplace=False)
Series.drop_duplicates(keep='first', inplace=False)

参数:

参数名	说明
by	用于标识重复项的列名或列名列表。如果未指定，则使用所有列。
subset	与 by 类似，但用于指定列的子集。
keep	指定如何处理重复项。可以是： 'first'：保留第一个出现的重复项（默认值）。 'last'：保留最后一个出现的重复项。 False：删除所有重复项。
inplace	布尔值，指定是否在原地修改数据。如果为 True，则会修改原始数据；如果为 False，则返回一个新的删除重复项后的对象。

案例：

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 2, 3],
    'B': [4, 5, 5, 6],
    'C': [7, 8, 8, 9]
}
df = pd.DataFrame(data)

# 删除所有列的重复行，默认保留第一个出现的重复项
df_unique = df.drop_duplicates()
print(df_unique)

# 删除重复行，保留最后一个出现的重复项
df_unique = df.drop_duplicates(keep='last')
print(df_unique)

6.6 分组

6.6.1 groupby

通过 groupby，你可以将数据集按照某个列（或多个列）的值分组，然后对每个组应用聚合函数，比如求和、平均值、最大值等。

语法：

DataFrame.groupby(by, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, observed=False, **kwargs)

参数：

参数名	说明
by	用于分组的列名或列名列表。
axis	指定沿着哪个轴进行分组。默认为 0，表示按行分组。
level	用于分组的 MultiIndex 的级别。
as_index	布尔值，指定分组后索引是否保留。如果为 True，则分组列将成为结果的索引；如果为 False，则返回一个列包含分组信息的 DataFrame。
sort	布尔值，指定在分组操作中是否对数据进行排序。默认为 True。
group_keys	布尔值，指定是否在结果中添加组键。
squeeze	布尔值，如果为 True，并且分组结果返回一个元素，则返回该元素而不是单列 DataFrame。
observed	布尔值，如果为 True，则只考虑数据中出现的标签。

案例：

import pandas as pd

# 创建一个示例 DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8],
        'D': [10, 20, 30, 40, 50, 60, 70, 80]
    }
    df = pd.DataFrame(data)

    # 按列 'A' 分组
    grouped = df.groupby('A')

    # 查看分组结果
    for name, group in grouped:
        print(f"Group: {name}")
        print(group)
        print()

    mean = df.groupby(['A']).mean()
	print(mean)
    #输出：
           C     D
    A             
    bar  4.0  40.0
    foo  4.8  48.0
    
    mean = grouped['C'].mean()
	print(mean)
    #输出：
    A
    bar    4.0
    foo    4.8
    
    
    
    # 在分组内根据C列求平均值
    # transform用于在分组操作中对每个组内的数据进行转换，并将结果合并回原始 DataFrame。
    mean = grouped['C'].transform(lambda x: x.mean())
    df['C_mean'] = mean
    print(df)
    #输出：
         A      B  C   D  C_mean
    0  foo    one  1  10     4.8
    1  bar    one  2  20     4.0
    2  foo    two  3  30     4.8
    3  bar  three  4  40     4.0
    4  foo    two  5  50     4.8
    5  bar    two  6  60     4.0
    6  foo    one  7  70     4.8
    7  foo  three  8  80     4.8


    # 在分组内根据C列求标准差
    std = grouped['C'].transform(np.std)
    df['C_std'] = std
    print(df)

    # 在分组内根据C列进行正太分布标准化
    norm = grouped['C'].transform(lambda x: (x - x.mean()) / x.std())
    df['C_normal'] = norm
    print(df)

6.6.2 filter

通过 filter() 函数可以实现数据的筛选，该函数根据定义的条件过滤数据并返回一个新的数据集。

案例：

import pandas as pd

# 创建一个示例 DataFrame
    data = {
        'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8],
        'D': [10, 20, 30, 40, 50, 60, 70, 80]
    }
    df = pd.DataFrame(data)

# 按列 'A' 分组，并过滤掉列 'C' 的平均值小于 4 的组
filtered = df.groupby('A').filter(lambda x: x['C'].mean() >= 4)

print(filtered)

6.7 合并

merge 函数用于将两个 DataFrame 对象根据一个或多个键进行合并，类似于 SQL 中的 JOIN 操作。这个方法非常适合用来基于某些共同字段将不同数据源的数据组合在一起，最后拼接成一个新的 DataFrame 数据表。

语法：

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

参数：

参数名	说明
left	左侧的 DataFrame 对象。
right	右侧的 DataFrame 对象。
how	合并方式，可以是 'inner'、'outer'、'left' 或 'right'。默认为 'inner'。 'inner'：内连接，返回两个 DataFrame 共有的键。 'outer'：外连接，返回两个 DataFrame 的所有键。 'left'：左连接，返回左侧 DataFrame 的所有键，以及右侧 DataFrame 匹配的键。 'right'：右连接，返回右侧 DataFrame 的所有键，以及左侧 DataFrame 匹配的键。
on	用于连接的列名。如果未指定，则使用两个 DataFrame 中相同的列名。
left_on和right_on	分别指定左侧和右侧 DataFrame 的连接列名。
left_index和right_index	布尔值，指定是否使用索引作为连接键。
sort	布尔值，指定是否在合并后对结果进行排序。
suffixes	一个元组，指定当列名冲突时，右侧和左侧 DataFrame 的后缀。
copy	布尔值，指定是否返回一个新的 DataFrame。如果为 False，则可能修改原始 DataFrame。
indicator	布尔值，如果为 True，则在结果中添加一个名为 __merge 的列，指示每行是如何合并的。
validate	验证合并是否符合特定的模式。

案例1，内连接：

import pandas as pd

# 创建两个示例 DataFrame
left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K4'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

# 内连接
result = pd.merge(left, right, on='key')

print(result)

#输出：K3、K4被忽略
  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2

案例2，左连接：

import pandas as pd

# 创建两个示例 DataFrame
left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K4'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
})

# 内连接
result = pd.merge(left, right, on='key')

print(result)

#输出：K3、K4被忽略
  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2

6.8 随机抽样

语法：

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

参数：

参数名	说明
n	要抽取的行数
frac	抽取的比例，比如 frac=0.5，代表抽取总体数据的50%
replace	布尔值参数，表示是否以有放回抽样的方式进行选择，默认为 False，取出数据后不再放回
weights	可选参数，代表每个样本的权重值，参数值是字符串或者数组
random_state	可选参数，控制随机状态，默认为 None，表示随机数据不会重复；若为 1 表示会取得重复数据
axis	表示在哪个方向上抽取数据(axis=1 表示列/axis=0 表示行)

案例：

import pandas as pd  

def sample_test():
    df = pd.DataFrame({
        "company": ['百度', '阿里', '腾讯'],
        "salary": [43000, 24000, 40000],
        "age": [25, 35, 49]
    })
    print('随机选择两行：')
    print(df.sample(n=2, axis=0))
    print('随机选择一列：')
    print(df.sample(n=1, axis=1))
    print('总体的50%：')
    print(df.sample(axis=0, frac=0.5))

6.9 空值处理

6.9.1 检测空值

isnull()用于检测 DataFrame 或 Series 中的空值，返回一个布尔值的 DataFrame 或 Series。

notnull()用于检测 DataFrame 或 Series 中的非空值，返回一个布尔值的 DataFrame 或 Series。

案例：

import pandas as pd
import numpy as np

# 创建一个包含空值的示例 DataFrame
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# 检测空值
is_null = df.isnull()
print(is_null)

# 检测非空值
not_null = df.notnull()
print(not_null)

6.9.2 填充空值

fillna() 方法用于填充 DataFrame 或 Series 中的空值。

案例：

# 创建一个包含空值的示例 DataFrame
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# 用 0 填充空值
df_filled = df.fillna(0)

print(df_filled)

6.9.3 删除空值

dropna() 方法用于删除 DataFrame 或 Series 中的空值。

案例：

# 创建一个包含空值的示例 DataFrame
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# 删除包含空值的行
df_dropped = df.dropna()
print(df_dropped)
#输出：
     A    B   C
0  1.0  5.0   9
3  4.0  8.0  12

# 删除包含空值的列
df_dropped = df.dropna(axis=1)
print(df_dropped)
#输出：
    C
0   9
1  10
2  11
3  12

7 读取CSV文件

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）；

7.1 to_csv()

to_csv() 方法将 DataFrame 存储为 csv 文件

案例：

import pandas as pd

# 创建一个简单的 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# 将 DataFrame 导出为 CSV 文件
df.to_csv('output.csv', index=False)

7.2 read_csv()

read_csv() 表示从 CSV 文件中读取数据，并创建 DataFrame 对象。

案例：

import pandas as pd

df = pd.read_csv('output.csv')
print(df)

8 绘图

Pandas 在数据分析、数据可视化方面有着较为广泛的应用，Pandas 对 Matplotlib 绘图软件包的基础上单独封装了一个plot()接口，通过调用该接口可以实现常用的绘图操作；

Pandas 之所以能够实现了数据可视化，主要利用了 Matplotlib 库的 plot() 方法，它对 plot() 方法做了简单的封装，因此您可以直接调用该接口；

只用 pandas 绘制图片可能可以编译，但是不会显示图片，需要使用 matplotlib 库，调用 show() 方法显示图形。

案例1：

import pandas as pd
import matplotlib.pyplot as plt

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 25, 30, 40]
}
df = pd.DataFrame(data)

# 绘制折线图
df.plot(kind='line')
# 显示图表
plt.show()

# 绘制柱状图
df.plot(kind='bar')
# 显示图表
plt.show()


# 绘制直方图
df['A'].plot(kind='hist')
# 显示图表
plt.show()

# 绘制散点图
df.plot(kind='scatter', x='A', y='B')
# 显示图表
plt.show()

案例2，饼图：

# 创建一个示例 Series
data = {
    'A': 10,
    'B': 20,
    'C': 30,
    'D': 40
}
series = pd.Series(data)
# 绘制饼图
series.plot(kind='pie', autopct='%1.1f%%')
# 显示图表
plt.show()

你可能感兴趣的:(python,pandas,开发语言)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
Python STL概念学习与代码实践体制教科书
本文还有配套的精品资源，点击获取简介：通过”py_stl_learning”项目，学习者可以使用Python实现和理解C++STL的概念，包括数据结构、算法、容器适配器、模板和泛型容器等。Python中的列表、集合、字典等数据结构与STL中的vector、set、map等类似，而Python的itertools和functools模块提供了STL风格的算法功能。Python通过其面向对象的特性以及
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache