Zhang_newbie

Pandas使用

文章目录

安装
pandas内置数据结构
- Series
- DataFrame
Series
- 创建Series对象
- - 使用有序一元容器对象创建
  - ndarray对象创建
  - 字典对象创建
  - 标量创建
- Series 常用属性
- Series 常用方法
- - head() 和 tail()
  - isnull() 和 notnull()
DataFarme
- 创建DataFarmed对象
- - 列表创建
  - 字典创建
  - Series创建
- 列索引使用
- - 获取数据
  - 添加数据
  - 修改数据
- 行索引操作
- - loc方法
  - iloc方法
  - 切片
  - 添加行
- DataFrame属性和方法
- - 常用属性和方法
函数
- 常用的统计学函数
- 重置索引
- - reindex
  - reindex_like
- 遍历
- - Series遍历
  - DataFrame遍历
- 排序
- - sort_index
  - sort_values
- 去重
- 分组
- 过滤
- 聚合
- 合并
- 时间
- - Timestamp
  - 解析
  - date_range
  - 时间差
  - 格式化时间
- 随机取样
- 空值处理
读取CSV文件
- 1. to_csv()
- 2. read_csv()
绘图

安装

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/

pandas内置数据结构

Series

Series 是 Pandas 中的一种一维数据结构，类似于数组但带有索引。它由一组数据（各种 Numpy 数据类型）以及一组与之相关的数据标签（即索引）组成。

DataFrame

DataFrame 是 Pandas 中的一种二维表格型数据结构，包含多种类型的列。它既有行索引也有列索引，可以被视为一个共享相同索引的 Series 的字典。或者看作是一个关系型数据库的一张标，或者当作一个EXCLE表格。可根据行列索引或标签进行操作。

Series

Series是一列或者一行数据的一维数据，相当于一个数组，只是可以通过其他的索引进行操作。

创建函数：

pandas.Series(data,index,dtype)

参数说明

data
- 类型：可以是列表、数组、字典等多种形式。
- 描述：这是创建 Series 对象时必须提供的一个参数，用于指定 Series 中的数据内容。
index
- 类型：字符串或数值，长度必须与数据的长度相同。
- 描述：这是一个可选参数，用于指定 Series 的索引。如果没有指定，默认情况下，索引会从 0 开始自动递增。如果传递了索引，则索引必须唯一且散列，且与数据的长度相同
dtype
- 类型：数据类型，用于指定 Series 中数据的类型。
- 描述：这也是一个可选参数，如果没有指定，Pandas 会根据数据的实际内容自动推断数据类型
copy
- 类型：布尔值，默认为 False。
- 描述：当设置为 True 时，表示创建 Series 时会复制数据，而不是仅仅引用原始数据。这在某些情况下可以避免后续操作对原始数据的影响

创建Series对象

使用有序一元容器对象创建

可使用列表，元组,集合进行创建或者None创建空的Series

空值创建

import pandas as pd
import numpy as np
s = pd.Series()
print(s)

```
Series([], dtype: object)
```

列表创建

s = pd.Series([1, 2, 3], dtype=np.int32)
print(s)

```
0    1
1    2
2    3
dtype: int32
```

元组创建

```
s = pd.Series((1, 2, 3))
print(s)
```
```
0    1
1    2
2    3
dtype: int64
```

ndarray对象创建

可使用一维ndarray对象进行创建

import pandas as pd
import numpy as np
arr =  np.array([1,2,3])
s = pd.Series(arr)
print(s)

0    1
1    2
2    3
dtype: int32

字典对象创建

可传入字典对象，会以key为series的索引(index),value为值进行创建

#通过字典创建 key为index，value为值
map = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(map)
print(s)
s['a'] = 100
print(s)

a    1
b    2
c    3
dtype: int64
a    100
b      2
c      3
dtype: int64

标量创建

不指定index时，只会创建一个元素

# 标量创建
s =pd.Series(5)
print(s) # 结果只有一行

0    5

指定index时，创建个数与index个数相同。会将标量广播到index一致，数据时同一份。

class Persion:
    def __init__(self, name):
        self.name = name

p1 = Persion('John')
s1 = pd.Series(p1,index=['a','b','c'])
print(s1)# 保持与index一致,value广播，浅拷贝

p1.name = 'John1'
print(s1['b'].name)

a    <__main__.Persion object at 0x0000020E00022040>
b    <__main__.Persion object at 0x0000020E00022040>
c    <__main__.Persion object at 0x0000020E00022040>
dtype: object
John1

可以看到，每个persion的地址相同，修改数据也会跟着修改

Series 常用属性

名称	属性
axes	以列表的形式返回所有行索引标签
dtype	返回对象的数据类型
empty	返回一个布尔值，用于判断数据对象是否为空
ndim	返回输入数据的维数
size	返回输入数据的元素数量
values	以 ndarray 的形式返回 Series 对象
index	返回一个RangeIndex对象，用来描述索引的取值范围

s = pd.Series([10,20,30],index=['a','b','c'])

print(s)
print("___________")
#返回行标签列表
print("axes")
print(s.axes)
print("___________")
print("dtype")
print(s.dtype)
print("___________")
print("empty")
print(s.empty)
print("___________")
print("size")
print(s.size)
print("___________")
print("values")
print(s.values)
print("___________")
print("index")
print(s.index)

a    10
b    20
c    30
dtype: int64
___________
axes
[Index(['a', 'b', 'c'], dtype='object')]
___________
dtype
int64
___________
empty
False
___________
size
3
___________
values
[10 20 30]
___________
index
Index(['a', 'b', 'c'], dtype='object')

Series 常用方法

head() 和 tail()

查看 Series 的某一部分数据，使用 head() 或者 tail() 方法。其中 head() 返回前 n 行数据，默认显示前 5 行数据，tail() 返回后 n 行数据，默认为后 5 行

案例：

s = pd.Series([1,2,3,4,5,6,7,8],
              ['a','b','c','d','e','f','g','h'])

# 获取前三行 默认5
print(s.head(3))

#获取后三行 默认5
print(s.tail(3))

a    1
b    2
c    3
dtype: int64
f    6
g    7
h    8
dtype: int64

isnull() 和 notnull()

isnull() 和 notnull() 用于检测 Series、DataFrame 中的缺失值。所谓缺失值，顾名思义就是值不存在、丢失、缺少

isnull()：如果为值不存在或者缺失，则返回 True
notnull()：如果值不存在或者缺失，则返回 False

案例：

import pandas as pd
s1 = pd.Series([1,2,None,'c'])
#判断Series对象中元素是否为空，为空为True
print(s1.isnull())
print("___________")
#和上面相反
print(s1.notnull())
print("___________")
#是否非数字
print(s1.isna())

1    False
2     True
3    False
dtype: bool
___________
0     True
1     True
2    False
3     True
dtype: bool
___________
0    False
1    False
2     True
3    False
dtype: bool

DataFarme

DataFarme是Pandas 中一种二维的、大小可变的、带标签的数据结构，类似于 Excel 的数据表或 SQL 中的表格。

pd.DataFrame(data, index, columns, dtype, copy)

data: 用于填充 DataFrame的数据。可以是多种数据类型。
- ndarray：二维的 Numpy 数组。例如一个 m x n 的数组，会被转换为一个有 m 行 n 列的 DataFrame。
- dict：字典类型，键（key）表示列名，值（value）可以是列表、数组或 Series 对象，这些值会作为列的数据。
- Series：一维的 Pandas Series 对象，会被转换为只有一列的 DataFrame。
- list：列表嵌套列表的形式可表示二维数据，类似于二维数组。
- 等等
index：定义 DataFrame 的行标签（索引）。它是一个可选参数，如果不提供，默认会使用从 0 开始的整数索引。可以是列表、数组或 Pandas 的 Index 对象。
columns：定义 DataFrame 的列标签。同样是可选参数，如果 data 是字典，字典的键会作为列标签；如果没提供列标签，默认使用从 0 开始的整数作为列标签。
dtype：指定 DataFrame 每列的数据类型。可以是 Numpy 的数据类型，如 np.int32 、np.float64 等。如果不指定，Pandas 会自动推断每列的数据类型。
**copy **: 是否对数据进行复制，默认False

import pandas as pd 
 
data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]] 
index = ['A', 'B', 'C'] 
columns = ['Name', 'Age'] 
df = pd.DataFrame(data=data, index=index, columns=columns, dtype=object) 
print(df)

      Name Age
A    Alice  25
B      Bob  30
C  Charlie  35

创建DataFarmed对象

列表创建

将列表作为一列数据创建

data = ['小明','小红','小紫']
column = ['name']
result = pd.DataFrame(data=data,columns=column)
print(result)

  name
0   小明
1   小红
2   小紫

列表嵌套字典创建


# 列表嵌套字典，key为列名
data = [{'name':"zhangsan", 'age':23},{'name':"Lisi", 'age':18,'sex':'男'}]
df = pd.DataFrame(data)
print(df)

print("_______________")
# 可指定列名
df = pd.DataFrame(data,columns=['name'])
print(df)

       name  age  sex
0  zhangsan   23  NaN
1      Lisi   18    男
_______________
       name
0  zhangsan
1      Lisi

字典创建

单值字典

df = pd.DataFrame({'name':"zhangsan", 'age':23},index=[1],columns=['name','age'])
print(df)

       name  age
1  zhangsan   23

字典嵌套列表,可以不指定列，指定列后，不存在则为NaN

import pandas as pd
import numpy as np

# 通过字典创建嵌套列表，key为列名
df = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6]},columns=['B','C','A'],index=['a','b','c'])
print(df)

   B    C  A
a  4  NaN  1
b  5  NaN  2
c  6  NaN  3

Series创建

key为列，value可单独指定index,没有的index为NaN

data = {'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
        'two': pd.Series([1, 2, 3, 4], index=['a', 'b', 'e', 'd'])}
result = pd.DataFrame(data=data)
print(result)

   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  NaN
d  NaN  4.0
e  NaN  3.0

列索引使用

获取数据

对于DataFarme对象可通过中括号 [] 获取对应列数据返回 Series

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]})

#根据列名获取某列数据
#获取列
s = df['name']
print(s)
print(type(s))

0    zhangsan
1        lisi
Name: name, dtype: object

添加数据

通过不存在的索引复制，自动添加。列数需要保持一致

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]})
# 添加列名
df['sex'] = ['male','female'] # None 或 标量 可广播 
print(df)

       name  age  id     sex
0  zhangsan   18   1    male
1      lisi   20   2  female

assign 添加，并且可以链式调用，列数也需要保持一致

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]})
# 添加列名
# 返回的是副本
dfa =  df.assign(address=["成都","宜宾"]).assign(pwd=["123","321"])
df.loc[0,'name'] = "NAN"
print(dfa)

       name  age  id address  pwd
0  zhangsan   18   1      成都  123
1      lisi   20   2      宜宾  321

Series对象添加

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]})

# 列数可以不一致，可以指定列索引，多的索引不进行添加，没有的索引为NaN
df["pwd"] = pd.Series(["123","321","1111"],index=[1,3,2])
print(df)

       name  age  id  pwd
0  zhangsan   18   1  NaN
1      lisi   20   2  123

insert 添加

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]},index=[11,12])
print(df)
print("___________")

# 列1前添加pwd列
df.insert(1,"pwd",["123","321"])
print(df)

        name  age  id
11  zhangsan   18   1
12      lisi   20   2
___________
        name  pwd  age  id
11  zhangsan  123   18   1
12      lisi  321   20   2

修改数据

通过标签访问修改

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]},index=[11,12])

print("修改")
df['age'] = [888,"666"]
print(df)

修改
        name  age  id
11  zhangsan  888   1
12      lisi  666   2

修改列名

coulms 属性直接修改
- ```
result.columns = ['A','B']
```
rename方法修改
- ```
df.rename(columns={'age':'AGE'})
```

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]})

#修改列名
df.columns = ['Name','age','id']
print(df)

# 通过rename方法修改列名
df.rename(columns={'age':'AGE'})
print(df)

       Name  age  id
0  zhangsan   18   1
1      lisi   20   2
       Name  age  id
0  zhangsan   18   1
1      lisi   20   2

修改dtype

df = pd.DataFrame({'name':["zhangsan","lisi"],'age':[18,20],'id':[1,2]})
print(df['id'].dtype)
df['id'] =  df['id'].astype(np.int32)
print(df['id'].dtype)

int64
int32

删除数据

DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')

labels: 要删除的标签，可以是单个标签或标签列表。默认情况下，labels=None 表示删除所有行或列。
axis: 指定删除操作的轴。axis=0 表示删除行，axis=1 表示删除列。
index: 直接指定要删除的行标签。
columns: 直接指定要删除的列标签。
level: 针对具有多重索引的数据框，指定要删除的层级。
inplace: 布尔值，表示是否在原数据上进行操作。inplace=False 表示返回一个新的 DataFrame，而 inplace=True 表示直接在原数据上进行修改。
errors=‘raise’: 错误处理方式，默认为 ‘raise’，表示在遇到错误时抛出异常。

import pandas as pd 
#删除行

# 创建一个示例 DataFrame 
data = {'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]} 
df = pd.DataFrame(data) 
print("原始 DataFrame:") 
print(df) 
 
# 删除索引为 1 的行 
df_drop_row = df.drop(index=1)  
print("删除索引为 1 的行后的 DataFrame:") 
print(df_drop_row)

原始 DataFrame:
   A  B
0  1  5
1  2  6
2  3  7
3  4  8
删除索引为 1 的行后的 DataFrame:
   A  B
0  1  5
2  3  7
3  4  8

import pandas as pd 

#删除列
# 创建一个示例 DataFrame 
data = {'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]} 
df = pd.DataFrame(data) 
print("原始 DataFrame:") 
print(df) 
 
# 删除列 'A' 
df_drop_col = df.drop(columns='A')  
print("删除列 'A' 后的 DataFrame:") 
print(df_drop_col)

原始 DataFrame:
   A  B
0  1  5
1  2  6
2  3  7
3  4  8
删除列 'A' 后的 DataFrame:
   B
0  5
1  6
2  7
3  8

删除多行或多列

import pandas as pd 
 
# 创建一个示例 DataFrame 
data = {'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]} 
df = pd.DataFrame(data) 
print("原始 DataFrame:") 
print(df) 
 
# 删除索引为 1 和 3 的行 
df_drop_rows = df.drop(index=[1,  3]) 
print("删除索引为 1 和 3 的行后的 DataFrame:") 
print(df_drop_rows) 
 
# 删除列 'A' 和 'B' 
df_drop_cols = df.drop(columns=['A',  'B']) 
print("删除列 'A' 和 'B' 后的 DataFrame:") 
print(df_drop_cols)

0  1  5
1  2  6
2  3  7
3  4  8
删除索引为 1 和 3 的行后的 DataFrame:
   A  B
0  1  5
2  3  7
删除列 'A' 和 'B' 后的 DataFrame:
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]

行索引操作

loc方法

使用loc可对DataFrame进行行和列的访问。传入行索引和列索引进行选择。

根据选择结果条数返回不同的数据

选中多行或者多列则返回DataFrame
选中单行和单列则返回Series

DataFrame.loc[row_indexer, column_indexer]

参数说明

row_indexer：行标签或布尔数组。
column_indexer：列标签或布尔数组。
行列索引根据传入值

注意：选中多少行根实际选中的数目无关，传入索引为范围即表示选中多行即使是向 1:2 这样的范围只有一个也是认为多行。选中单行只有是传入单个索引值

例如：

data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8],
    "C":[9,10,11,12],
}

df = pd.DataFrame(data,index = ['a','b','c','d'])
res = df.loc[['a'],['A']]
print(type(res))
print(res)


   A
a  1

获取单行

import pandas as pd
import numpy as np
data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8],
    "C":[9,10,11,12],
}

df = pd.DataFrame(data,index = ['a','b','c','d'])

#获取单行,返回行的Series,标签为列索引
ra =  df.loc['a'] # 结果是视图
ra['A'] = 99
print(ra)
# 结果为单行，返回Series
print(type(ra))
print("____________")
print(df)

A    99
B     5
C     9
Name: a, dtype: int64

____________
    A  B   C
a  99  5   9
b   2  6  10
c   3  7  11
d   4  8  12

获取多行

data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8],
    "C":[9,10,11,12],
}

df = pd.DataFrame(data,index = ['a','b','c','d'])
#获取多行, a到c均含边界
#
rs = df.loc['a':'b']
print(rs)
# 结果为多行，返回DataFrame
print(type(rs))

   A  B   C
a  1  5   9
b  2  6  10

获取单个值

#获取值，返回标量
res =  df.loc['a','B']
print(res) 
# 5

同时获取行和列

#其他
res1 = df.loc['a':'c','B']
print(res1)
print(type(res1))

print("_______________")
res1 = df.loc[['a','b'],['A','B']]
print(res1)

a    5
b    6
c    7
Name: B, dtype: int64

_______________
   A  B
a  1  5
b  2  6

Bool索引获取

#Bool索引 获取 B列大于6的行
res = df.loc[df['B']>6,[True,False,True]]
print(res)

   A   C
c  3  11
d  4  12

iloc方法

传入行索引和列索引进行选择。但是传入的值是从 0~len-1的位置数字索引。其他方法通iloc

DataFrame.loc[row_indexer, column_indexer]

切片

切片方法与列表相同，但是可以根据指定的行索引进行切片

DataFrame[start:stop:stape]

import pandas as pd
import numpy as np

data = {
    "A": [1, 2, 3, 4],
    "B": [5, 6, 7, 8],
    "C": [9, 10, 11, 12],
}
df = pd.DataFrame(data,index=['a', 'b', 'c','d'])

# 切面全是按照行进行切片，不能使用单标签或单下标获取

# 通过行索引，通过位置切片，即使指定index为数字也是
res = df[0:2]# 不包含两端
print(res)

print("_____________")
res = df['a':'c']# 通过index切片，包含两端
print(res)

   A  B   C
a  1  5   9
b  2  6  10
_____________
   A  B   C
a  1  5   9
b  2  6  10
c  3  7  11

添加行

loc方法进行添加

data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8],
    "C":[9,10,11,12],
}

df = pd.DataFrame(data,index = ['a','b','c','d'])
#使用新的索引添加
df.loc['g'] = [21,22,23]
print(df)

pd.concat()添加

```
pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)
```
参数：

objs: 要连接的 DataFrame 或 Series 对象的列表或字典。

axis: 指定连接的轴，0 或 ‘index’ 表示按行连接，1 或 ‘columns’ 表示按列连接。

join: 指定连接方式，‘outer’ 表示并集（默认），‘inner’ 表示交集。

ignore_index: 如果为 True，则忽略原始索引并生成新的索引。

keys: 用于在连接结果中创建层次化索引。

levels: 指定层次化索引的级别。

names: 指定层次化索引的名称。

verify_integrity: 如果为 True，则在连接时检查是否有重复索引。

sort: 如果为 True，则在连接时对列进行排序。

copy: 如果为 True，则复制数据。

例

data = {
    "A":[1,2,3,4],
    "B":[5,6,7,8],
    "C":[9,10,11,12],
}
data1 = {
    "A":[1,2,3],
    "B":[6,7,8],
    "D":[9,11,12],
}

df = pd.DataFrame(data,index = ['a','b','c','d'])
df1 = pd.DataFrame(data1,index=['a','b','e'])
res = pd.concat([df,df1],axis=1,join='outer')
print(res)
print("______________")
res = pd.concat([df,df1],axis=1,join='inner')
print(res)

     A    B     C    A    B     D
a  1.0  5.0   9.0  1.0  6.0   9.0
b  2.0  6.0  10.0  2.0  7.0  11.0
c  3.0  7.0  11.0  NaN  NaN   NaN
d  4.0  8.0  12.0  NaN  NaN   NaN
e  NaN  NaN   NaN  3.0  8.0  12.0
______________
   0  1   2  3  4   5
a  1  5   9  1  6   9
b  2  6  10  2  7  11

DataFrame 和 Series 连接，将Series的name属性作为DataFrame的列标签。Name为空则为0.

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# 创建一个示例 Series
series = pd.Series([7, 8, 9],name="C")

# 按行连接 DataFrame 和 Series
result_row = pd.concat([df, series], axis=0)

# 按列连接 DataFrame 和 Series
result_col = pd.concat([df, series], axis=1)
# 
print("按行连接结果:")
print(result_row)
print("\n按列连接结果:")
print(result_col)

按行连接结果:
     A    B    C
0  1.0  4.0  NaN
1  2.0  5.0  NaN
2  3.0  6.0  NaN
0  NaN  NaN  7.0
1  NaN  NaN  8.0
2  NaN  NaN  9.0

按列连接结果:
   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9

DataFrame属性和方法

常用属性和方法

DataFrame 的属性和方法，与 Series 基本相同

名称	属性和方法描述
T	行和列转置。
axes	返回一个仅以行轴标签和列轴标签为成员的列表。
dtypes	返回每列数据的数据类型。
empty	DataFrame中没有数据或者任意坐标轴的长度为0，则返回True。
ndim	轴的数量，也指数组的维数。
shape	返回一个元组，表示了 DataFrame 维度。
size	DataFrame中的元素数量。
values	使用 numpy 数组表示 DataFrame 中的元素值。
head()	返回前 n 行数据。
tail()	返回后 n 行数据。

import pandas as pd
import numpy as np

data = {
    "A": [1, 'b', 3, 4],
    "B": [5, 6, 7, 8],
    "C": [9, 10, 11, 12],
}

df = pd.DataFrame(data, index=['a', 'b', 'c','d'])

print(df)
print("__________")
print("转置")
print(df.T)
print("__________")
print("axes")
print(df.axes)

print("__________")
print("dtype")
print(df.dtypes)

print("__________")
print("empty")
print(df.empty)

print("__________")
print("ndim")
print(df.ndim)

print("___________")
print("shape")
print(df.shape)

print("__________")
print("size")
print(df.size)

print("__________")
#返回numpy表示DataFrame 的值
print("values")
print(df.values)

   A  B   C
a  1  5   9
b  b  6  10
c  3  7  11
d  4  8  12
__________
转置
   a   b   c   d
A  1   b   3   4
B  5   6   7   8
C  9  10  11  12
__________
axes
[Index(['a', 'b', 'c', 'd'], dtype='object'), Index(['A', 'B', 'C'], dtype='object')]
__________
dtype
A    object
B     int64
C     int64
dtype: object
__________
empty
False
__________
ndim
2
___________
shape
(4, 3)
__________
size
12
__________
values
[[1 5 9]
 ['b' 6 10]
 [3 7 11]
 [4 8 12]]

函数

常用的统计学函数

函数名称	描述说明
count()	统计某个非空值的数量
sum()	求和
mean()	求均值
median()	求中位数
std()	求标准差
min()	求最小值
max()	求最大值
abs()	求绝对值
prod()	求所有数值的乘积

重置索引

重置索引（reindex）可以更改原 DataFrame 的行标签或列标签，并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。通过重置索引操作，您可以完成对现有数据的重新排序。如果重置的索引标签在原 DataFrame 中不存在，那么该标签对应的元素值将全部填充为 NaN。

reindex

DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=np.nan, limit=None, tolerance=None)

labels：
- 类型：数组或列表，默认为 None。
- 描述：新的索引标签。
index：
- 类型：数组或列表，默认为 None。
- 描述：新的行索引标签。
columns：
- 类型：数组或列表，默认为 None。
- 描述：新的列索引标签。
axis：
- 类型：整数或字符串，默认为 None。
- 描述：指定重新索引的轴。0 或 ‘index’ 表示行，1 或 ‘columns’ 表示列。
method：
- 类型：字符串，默认为 None。
- 描述：用于填充缺失值的方法。可选值包括 ‘ffill’（前向填充）、‘bfill’（后向填充）等。
copy：
- 类型：布尔值，默认为 True。
- 描述：是否返回新的 DataFrame 或 Series。
level：
- 类型：整数或级别名称，默认为 None。
- 描述：用于多级索引（MultiIndex），指定要重新索引的级别。
fill_value：
- 类型：标量，默认为 np.nan。
- 描述：用于填充缺失值的值。
limit：
- 类型：整数，默认为 None。
- 描述：指定连续填充的最大数量。
tolerance：
- 类型：标量或字典，默认为 None。
- 描述：指定重新索引时的容差。

labels 和 axis 配合可重置索引

直接使用index 或者 columns可重置索引。此时labels将失效。默认axis = 0


import pandas as pd
import numpy as np

data = {
    "A": [1, 2, 3, 4],
    "B": [5, 6, 7, 8],
    "C": [9, 10, 11, 12],
}


df = pd.DataFrame(data,index=["a", "b", "c",'d'])

print(df)
#修改行索引,原来没有的索引将默认为NaN
print("____________")
res =  df.reindex(index=['c','a','b','d','e'])
print(res)

A  B   C
a  1  5   9
b  2  6  10
c  3  7  11
d  4  8  12
____________
     A    B     C
c  3.0  7.0  11.0
a  1.0  5.0   9.0
b  2.0  6.0  10.0
d  4.0  8.0  12.0
e  NaN  NaN   NaN

#修改行索引,原来没有的索引将默认为NaN
print("____________")#Literal["backfill", "bfill", "ffill", "pad"]
res =  df.reindex(index=['c','a','b','d','E']).ffill()
print(res)

print("____________")
# 只用指定值填充
res = df.reindex(index=['c','a','b','d','E'],fill_value = 0)
print(res)

print("____________")
# 只用指定值填充，同时指定method 和 fill_value,先以非NaN为准再以method为准
res = df.reindex(index=['c','e','a','b','d']).bfill()
print(res)

____________
     A    B     C
c  3.0  7.0  11.0
a  1.0  5.0   9.0
b  2.0  6.0  10.0
d  4.0  8.0  12.0
E  4.0  8.0  12.0
____________
   A  B   C
c  3  7  11
a  1  5   9
b  2  6  10
d  4  8  12
E  0  0   0
____________
     A    B     C
c  3.0  7.0  11.0
e  1.0  5.0   9.0
a  1.0  5.0   9.0
b  2.0  6.0  10.0
d  4.0  8.0  12.0

reindex_like

reindex_like 方法用于将一个 DataFrame 或 Series 的索引重新排列，使其与另一个 DataFrame 或 Series 的索引相匹配。如果在重新索引的过程中，新的索引与原始索引不完全匹配，那么不匹配的位置将会被填充为 NaN 值。

DataFrame.reindex_like(other, method=None, copy=True, limit=None, tolerance=None)

遍历

Series遍历

items()

import pandas as pd
import numpy as np

data = {
    "A": [1, 2, 3, 4],
    "B": [5, 6, 7, 8],
    "C": [9, 10, 11,12]
}

df = pd.DataFrame(data, index=['a', 'b', 'c','d'])

ps =  pd.Series([1,2,3,4,5])
for index,value in ps.items():
    print(index,value)

index

print("_____________")
for i in ps.index:
    print(i,ps[i])

_____________
0 1
1 2
2 3
3 4
4 5

values

print("_____________")
for i in ps.values:
    print(i)

print("_____________")
for i in ps:
    print(i)

_____________
1
2
3
4
5
_____________
1
2
3
4
5

DataFrame遍历

直接遍历

使用for 返回的是列标签

data = {
    "A": [1, 2, 3, 4],
    "B": [5, 6, 7, 8],
    "C": [9, 10, 11,12]
}

df = pd.DataFrame(data, index=['a', 'b', 'c','d'])
# 直接for 返回列标签
for i in df:
    print(i)

A
B
C

遍历行

使用 iterrows() 函数，返回索引和行

# 遍历行
for index,row in df.iterrows():
    print("_____________")
    print(index)
    print(row)

_____________
a
A    1
B    5
C    9
Name: a, dtype: int64
_____________
b
A     2
B     6
C    10
Name: b, dtype: int64
_____________
c
A     3
B     7
C    11
Name: c, dtype: int64
_____________
d
A     4
B     8
C    12
Name: d, dtype: int64

遍历列

使用items 遍历

# 返回每一列
for index,value in df.items():
    print("_____________")
    print(index)
    print(value)

_____________
A
a    1
b    2
c    3
d    4
Name: A, dtype: int64
_____________
B
a    5
b    6
c    7

使用 itertuples 遍历（推荐），性能更好。

```
df.itertuples(index=False)
```
index 参数，接收bool 值，True会返回每行索引，False不反回

#遍历行，返回一个命名元组对象,默认Pandas
# index为False,不返回index
# index 默认True
for i in df.itertuples(index=False):
    print(i)
    print(i[0])

Pandas(A=1, B=5, C=9)
1
Pandas(A=2, B=6, C=10)
2
Pandas(A=3, B=7, C=11)
3
Pandas(A=4, B=8, C=12)
4

for i in df.itertuples(name="Pandas"):
    print("_____________")
    print(i)
    print(i[0])
    print(i.A)

_____________
my_Pandas(Index='a', A=1, B=5, C=9)
a
1
_____________
my_Pandas(Index='b', A=2, B=6, C=10)
b
2
_____________
my_Pandas(Index='c', A=3, B=7, C=11)
c
3
_____________
my_Pandas(Index='d', A=4, B=8, C=12)
d
4

通过 index 和 columns 属性遍历


#使用 index 和 columns 属性访问
for index in df.index:
    for colum in df.columns:
        print(df.loc[index,colum],end=" ")
    print()

排序

sort_index

可通过sort_index() 函数根据索引进行排序。

DataFrame.sort_index(axis=0, ascending=True, inplace=False)
Series.sort_index(axis=0, ascending=True, inplace=False)

sort_values

按照指定的列或索引进行升序或降序排序，并且支持多种排序策略和缺失值的处理。

DataFrame.sort_values(by=None,  axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')

by：指定列名（axis=0或'index'）或索引值（axis=1或'columns'）。如果不指定，默认按照第一列进行排序。
axis：指定排序的方向，axis=0表示按列排序，axis=1表示按行排序。默认值为axis=0。
ascending：布尔值或列表，用于指定是否升序排列。默认为True，即升序排列。
inplace：布尔值，表示是否在原DataFrame上进行排序，还是返回一个新的排序后的DataFrame。默认为False，即不替换原数据。
kind：排序算法，可选值为{'quicksort', 'mergesort', 'heapsort'}。默认值为quicksort。
na_position：指定缺失值的显示位置，可选值为'first'或'last'。默认值为'last'，即缺失值排在最后面

data = {
    "B": [5, 2, 1, 4],
    "A": [1, 6, 3, 8],
    "C": [5, 1, 11,9]
}

df = pd.DataFrame(data,index=['b','a','c','d'])
print(df)
print("________________")
# 按照A列降序
res =  df.sort_values(by=['A'],axis=0, ascending=False,inplace=False,kind='mergesort') # quick heap  stable
print(res)

   B  A   C
b  5  1   5
a  2  6   1
c  1  3  11
d  4  8   9
________________
   B  A   C
d  4  8   9
a  2  6   1
c  1  3  11
b  5  1   5

去重

drop_duplicates() 方法对元素去重

DataFrame

DataFrame.drop_duplicates(subset=None,  keep='first', inplace=False)

参数说明
- subset：可选参数，默认为 None。用于指定要考虑的列名列表，如果不指定，将考虑所有列。只有这些列中的值完全相同的行才会被视为重复项。
- keep: 可选参数，默认为'first'
  
  指定如何保留重复项，有以下三个取值：
  - 'first'：保留第一次出现的重复项，删除后续的重复项。
  - 'last'：保留最后一次出现的重复项，删除前面的重复项。
  - False：删除所有重复项，即不保留任何重复的行。
- inplace：可选参数，默认为 False。如果为 True，则直接在原 DataFrame 上进行修改，不返回新的 DataFrame；如果为 False，则返回一个移除了重复项的新 DataFrame。
```
import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 2, 1],
    'B': [4, 5, 5, 6],
    'C': [2, 8, 8, 2]
}
df = pd.DataFrame(data)
print(df)
print("______________")
# 删除所有列的重复行，默认保留第一个出现的重复项
df_unique = df.drop_duplicates()
print(df_unique)

print("______________")
# 删除重复行，保留最后一个出现的重复项
df_unique = df.drop_duplicates(keep='last')
print(df_unique)

print("______________")
# keep = first 保留第一项，False不保留 
dfu = df.drop_duplicates(['A', 'C'], keep='first')
print(dfu)
```

Series

同DataFrame一样，只是无subset参数，全部进行去重。

Series.drop_duplicates(keep='first',  inplace=False)

分组

DataFrame.groupby() 用于执行数据的分组和聚合操作,基于一个或多个列的值对DataFrame进行分组，并对每个组进行各种计算。

df.groupby(by=None,  axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

参数说明

by：指定用于分组的列或列名列表。
axis：指定分组的方向，默认为0（按行分组），也可以为1（按列分组）。
level：指定分组的级别，适用于多层次索引的情况。
as_index：决定是否将分组标签作为结果的一部分，默认为True。
sort：是否对分组结果进行排序，默认为True。
group_keys：是否将分组键作为结果的一部分，默认为True。
squeeze：是否去除结果中的单级索引，默认为False。

import pandas as pd
import numpy as np
# 创建一个示例 DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': [1, 2, 3, 4, 5, 6, 7, 8],
    'D': [10, 20, 30, 40, 50, 60, 70, 80]
}
df = pd.DataFrame(data)

# 按列 'A' 分组
grouped = df.groupby('A')

# 查看分组结果
for name, group in grouped:
    print(f"Group: {name}")
    print(group)
    print()

Group: bar
     A      B  C   D
1  bar    one  2  20
3  bar  three  4  40
5  bar    two  6  60

Group: foo
     A      B  C   D
0  foo    one  1  10
2  foo    two  3  30
4  foo    two  5  50
6  foo    one  7  70
7  foo  three  8  80

# 对每组C列求平均值，D列求标准差
mean = df.groupby(['A']).agg({'C': 'mean', 'D': 'std'}).reset_index()
print(mean)

     A    C          D
0  bar  4.0  20.000000
1  foo  4.8  28.635642

对分组内每个数据进行操作

data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': [1, 2, 3, 4, 5, 6, 7, 8],
    'D': [10, 20, 30, 40, 50, 60, 70, 80]
}
df = pd.DataFrame(data)

# 按列 'A' 分组
grouped = df.groupby('A')

# 在分组内根据C列求平均值
# transform用于在分组操作中对每个组内的数据进行转换，并将结果合并回原始 DataFrame。
# mean = grouped['C'].transform(lambda x: x.mean())
mean = grouped['C'].transform(lambda x: x.mean())

df['C_mean'] = mean
print(df)

# 在分组内根据C列求标准差
std = grouped['C'].transform('std')
df['C_std'] = std
print(df)

# 在分组内根据C列进行正太分布标准化
norm = grouped['C'].transform(lambda x: (x - x.mean()) / x.std())
df['C_normal'] = norm
print(df)

     A      B  C   D  C_mean
0  foo    one  1  10     4.8
1  bar    one  2  20     4.0
2  foo    two  3  30     4.8
3  bar  three  4  40     4.0
4  foo    two  5  50     4.8
5  bar    two  6  60     4.0
6  foo    one  7  70     4.8
7  foo  three  8  80     4.8
     A      B  C   D  C_mean     C_std
0  foo    one  1  10     4.8  2.863564
1  bar    one  2  20     4.0  2.000000
2  foo    two  3  30     4.8  2.863564
3  bar  three  4  40     4.0  2.000000
4  foo    two  5  50     4.8  2.863564
5  bar    two  6  60     4.0  2.000000
6  foo    one  7  70     4.8  2.863564
7  foo  three  8  80     4.8  2.863564
     A      B  C   D  C_mean     C_std  C_normal
0  foo    one  1  10     4.8  2.863564 -1.327018
1  bar    one  2  20     4.0  2.000000 -1.000000
2  foo    two  3  30     4.8  2.863564 -0.628587
3  bar  three  4  40     4.0  2.000000  0.000000
4  foo    two  5  50     4.8  2.863564  0.069843
5  bar    two  6  60     4.0  2.000000  1.000000
6  foo    one  7  70     4.8  2.863564  0.768273
7  foo  three  8  80     4.8  2.863564  1.117488

过滤

filter 对元素过滤

import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': [1, 2, 3, 4, 5, 6, 7, 8],
    'D': [10, 20, 30, 40, 50, 60, 70, 80]
}
df = pd.DataFrame(data)

mean = df.groupby('A')['C'].transform('mean')
res = df.assign(mean=mean)
print(res)
print("__________")
# 按列 'A' 分组，并过滤掉列 'C' 的平均值小于等于4 的组
filtered = df.groupby('A').filter(lambda x: x['C'].mean() >4)

print(filtered)

     A      B  C   D  mean
0  foo    one  1  10   4.8
1  bar    one  2  20   4.0
2  foo    two  3  30   4.8
3  bar  three  4  40   4.0
4  foo    two  5  50   4.8
5  bar    two  6  60   4.0
6  foo    one  7  70   4.8
7  foo  three  8  80   4.8
__________
     A      B  C   D
0  foo    one  1  10
2  foo    two  3  30
4  foo    two  5  50
6  foo    one  7  70
7  foo  three  8  80

聚合

使用 agg() 方法，对分组后的数据，对每一个分组聚合为单个值。

import pandas as pd
import numpy as np
data = {
    'Category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Value1': [10, 20, 30, 40, 50, 60, 70, 80],
    'Value2': [15, 25, 35, 45, 55, 65, 75, 85]
}
df = pd.DataFrame(data)

gdf = df.groupby(['Category'])
# key表示聚合名称，传入元组对每组内的列进行聚合操作
res = gdf.agg(value1=('Value1', 'std'), value2=('Value2', 'std')).reset_index()
# res = gdf.std().reset_index()
# res = gdf.agg({'Value1':['mean','std'],'Value2':['mean','std']}).reset_index()
print(res)

import pandas as pd
import numpy as np
data = {
    'Category': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Value1': [10, 20, 30, 40, 50, 60, 70, 80],
    'Value2': [15, 25, 35, 45, 55, 65, 75, 85]
}
df = pd.DataFrame(data)

gdf = df.groupby(['Category'])

# res = gdf.agg(value1=('Value1', 'std'), value2=('Value2', 'std')).reset_index()
# res = gdf.std().reset_index()

res = gdf.agg({'Value1':['mean','std'],'Value2':['mean','std']})
res.columns = ['_'.join(c) for c in res.columns]

print(res)

          Value1_mean  Value1_std  Value2_mean  Value2_std
Category                                                  
A                40.0   25.819889         45.0   25.819889
B                50.0   25.819889         55.0   25.819889

合并

使用 pd.merge()函数对两个DataFrame数据进行合并，可以向Mysql数据表一样对数据进行连接等操作。

pandas.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

参数说明：

left：左侧的 DataFrame 对象。
right：右侧的 DataFrame 对象。
how：合并方式，可以是 ‘inner’、‘outer’、‘left’ 或 ‘right’。默认为 ‘inner’。
- ‘inner’：内连接，返回两个 DataFrame 共有的键。
- ‘outer’：外连接，返回两个 DataFrame 的所有键。
- ‘left’：左连接，返回左侧 DataFrame 的所有键，以及右侧 DataFrame 匹配的键。
- ‘right’：右连接，返回右侧 DataFrame 的所有键，以及左侧 DataFrame 匹配的键。
on：用于连接的列名。如果未指定，则使用两个 DataFrame 中相同的列名。
left_on 和 right_on：分别指定左侧和右侧 DataFrame 的连接列名。
left_index 和 right_index：布尔值，指定是否使用索引作为连接键。
sort：布尔值，指定是否在合并后对结果进行排序。
suffixes：一个元组，指定当列名冲突时，右侧和左侧 DataFrame 的后缀。
copy：布尔值，指定是否返回一个新的 DataFrame。如果为 False，则可能修改原始 DataFrame。
indicator：布尔值，如果为 True，则在结果中添加一个名为 __merge 的列，指示每行是如何合并的。
validate：验证合并是否符合特定的模式。

import pandas as pd
import numpy as np

import pandas as pd

# 创建两个示例 DataFrame
left = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K3'],
    'A': ['0', '1', '2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
})

right = pd.DataFrame({
    'key': ['K0', 'K1', 'K2', 'K4'],
    'C': ['0', '1', '2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3'],
    'r_key': ['K3', 'K1', 'K0', 'K2']
})

res =  pd.merge(left, right, left_on='A',right_on='C', how='left', suffixes=('_l', '_r'),indicator=True)

print(res)

res = pd.merge(left, right,left_index=True, right_index=True,how='left', suffixes=('_l', '_r'))
print(res)

  key_l   A   B key_r    C    D r_key     _merge
0    K0   0  B0    K0    0   D0    K3       both
1    K1   1  B1    K1    1   D1    K1       both
2    K2   2  B2    K2    2   D2    K0       both
3    K3  A3  B3   NaN  NaN  NaN   NaN  left_only
  key_l   A   B key_r   C   D r_key
0    K0   0  B0    K0   0  D0    K3
1    K1   1  B1    K1   1  D1    K1
2    K2   2  B2    K2   2  D2    K0
3    K3  A3  B3    K4  C3  D3    K2

时间

Timestamp

pandas中的时间类

创建

# 可传入多种形式进行创建
pd.Timestamp(datetime.now())
pd.Timestamp(datetime.now().timestamp())
pd.Timestamp("2024-05-19 16:45:30")
pd.Timestamp(year=2024, month=5, day=19, hour=16, minute=59, second=59,unit='ms', tz='Asia/Shanghai')

解析

使用pd.to_datetime() 对时间进行解析

da = pd.to_datetime("2024/05/19 16:45:30")
print(da)
# 自定义解析格式
da = pd.to_datetime("2024/05/19 16:45:30",format="%Y/%m/%d %H:%M:%S")
print(da)
#不全的部分，以最开始时间自动补充
da = pd.to_datetime("2024/10")
print(da)

2024-05-19 16:45:30
2024-05-19 16:45:30
2024-10-01 00:00:00

date_range

date_range() 函数用于生成一个固定频率的日期时间索引（DatetimeIndex）。这个函数非常灵活，可以用于生成各种时间序列数据。

pandas.date_range(start=None, end=None, periods=None, freq=None, tz=None, normalize=False, name=None, closed=None, **kwargs)

参数解释

start：str 或 datetime-like，可选参数。表示日期范围的开始时间。默认值为 None。
end：str 或 datetime-like，可选参数。表示日期范围的结束时间。默认值为 None。
periods：int，可选参数。表示生成的日期时间索引的长度，即要生成的日期数量。如果 start 和 end 都已知，则可以不指定该参数；若 start 或 end 有一个未知，则需要指定该参数。默认值为 None。
freq：str 或 DateOffset，可选参数。表示日期的频率，例如 'D' 表示每天，'M' 表示每月最后一天，'MS' 表示每月第一天等。默认值为 'D'。
tz：str 或 tzinfo，可选参数。表示时区，例如 'Asia/Shanghai'。默认值为 None。
normalize：bool，可选参数。若为 True，则会将 start 和 end 时间标准化为午夜（00:00:00）。默认值为 False。
name：str，可选参数。表示生成的日期时间索引的名称。默认值为 None。
closed：str，可选参数。指定区间的开闭方式，可以取值为 'left'（左闭右开）、'right'（左开右闭）或 None（两边都闭）。默认值为 None。


pd.date_range("2024-03-19 16:45:30",end="2024-04-12 16:45:30",freq='D',normalize=True)

DatetimeIndex(['2024-03-19', '2024-03-20', '2024-03-21', '2024-03-22',
               '2024-03-23', '2024-03-24', '2024-03-25', '2024-03-26',
               '2024-03-27', '2024-03-28', '2024-03-29', '2024-03-30',
               '2024-03-31', '2024-04-01', '2024-04-02', '2024-04-03',
               '2024-04-04', '2024-04-05', '2024-04-06', '2024-04-07',
               '2024-04-08', '2024-04-09', '2024-04-10', '2024-04-11',
               '2024-04-12'],
              dtype='datetime64[ns]', freq='D')

时间差

可通过时间差Timedelta 对时间进行加或减时操作


pt =  pd.Timedelta(days=1,hours=1,minutes=1,seconds=1)

t = pd.Timestamp("2024-03-19 16:45:30")
# t = datetime.now()

print(t)
print(t+pt)

#数量加单位进行创建
pt = pd.Timedelta(12,unit='h')
print(t+pt)

2024-03-19 16:45:30
2024-03-20 17:46:31
2024-03-20 04:45:30

格式化时间

strftime 将时间转换为str ,strptime 将时间字符串转换成时间

now = pd.Timestamp("2024-03-19 16:45:30")
print(now)

# 时间格式化 datatime 对象也可以
print(now.strftime("%Y年%m月%d日 %H:%M:%S"))

# datetime 中 将字符串按照指定格式解析为对象
# 类似pd.to_datetime("2024/05/19 16:45:30")
print( datetime.strptime("2024-11-12 11:11:11", "%Y-%m-%d %H:%M:%S"))

2024-03-19 16:45:30
2024年03月19日 16:45:30
2024-11-12 11:11:11

随机取样

用于从 DataFrame 对象中随机抽取一些行或列，并返回一个新的 DataFrame 或 Series 对象，其中包含这些随机抽取的项目。这个方法主要用于简单随机抽样。

DataFrame.sample(n=None,  frac=None, replace=False, weights=None, random_state=None, axis=0)

n (int 或 None): 指定要抽取的样本数量。如果指定了 n，则 frac 应设置为 None。
frac (float 或 None): 指定要抽取的样本占原数据框的比例。如果同时指定了 n 和 frac，将使用 frac 参数。
replace (bool, 默认为 False): 控制是否允许重复抽样。
weights (str 或数组型, 默认为 None): 指定每个样本的权重。可以是列名，指示样本权重的列，也可以是权重数组。
random_state (int 或 RandomState 实例或 None, 默认为 None): 用于指定随机数生成器的种子，以实现可重复抽样。
axis ({0 或 ‘index’, 1 或 ‘columns’}, 默认为 0): 指定抽样的轴。如果为 0 或 ‘index’，则在行上进行抽样；如果为 1 或 ‘columns’，则在列上进行抽样。

例

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "company": ['百度', '阿里', '腾讯'],
    "salary": [43000, 24000, 40000],
    "age": [25, 35, 49]
})
print('随机选择两行：')
print(df.sample(n=2, axis=0).copy(deep=True))
print('随机选择一列：')
print(df.sample(n=1, axis=1))
print('总体的50%：')
print(df.sample(axis='index', frac=0.5))

随机选择两行：
  company  salary  age
1      阿里   24000   35
0      百度   43000   25
随机选择一列：
   salary
0   43000
1   24000
2   40000
总体的50%：
  company  salary  age
0      百度   43000   25
2      腾讯   40000   49

空值处理

检查空值

df.isnull()# 判断为空
df.notnull()# 判断不为空

返回bool数组

import pandas as pd
import numpy as np

# 创建一个包含空值的示例 DataFrame
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# 检测空值
is_null = df.isnull()
print(is_null)

# 检测非空值
not_null = df.notnull()
print(not_null)

       A      B      C
0  False  False  False
1  False   True  False
2   True   True  False
3  False  False  False
       A      B     C
0   True   True  True
1   True  False  True
2  False  False  True
3   True   True  True

空值填充

df.fillna(value)# 用value 填充空值

# 创建一个包含空值的示例 DataFrame
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# 用 0 填充空值
df_filled = df.fillna(1)
print(df_filled)

     A    B   C
0  1.0  5.0   9
1  2.0  1.0  10
2  1.0  1.0  11
3  4.0  8.0  12

空值删除

df.dropna(axis=0, how='any')


# 创建一个包含空值的示例 DataFrame
data = {
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

#df
print(df)
print("___________")
df.dropna(axis=0, how='any', inplace=True)
print(df)

     A    B   C
0  1.0  5.0   9
1  2.0  NaN  10
2  NaN  NaN  11
3  4.0  8.0  12
___________
     A    B   C
0  1.0  5.0   9
3  4.0  8.0  12

读取CSV文件

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。

CSV 是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。

1. to_csv()

to_csv() 方法将 DataFrame 存储为 CSV 文件。

例：

import pandas as pd

# 创建一个简单的 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# 将 DataFrame 导出为 CSV 文件，不保存索引
df.to_csv('output.csv', index=False)

2. read_csv()

read_csv() 方法用于从 CSV 文件中读取数据，并创建 DataFrame 对象。

例：

import pandas as pd
import os
# 将 DataFrame 导出为 CSV 文件
cwd = os.getcwd()

csv = pd.read_csv("data/data.csv")
print(csv)

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

绘图

pandas 中可直接对DataFrame对象数据进行绘图，调用plot函数即可，并传入对应绘图方式即可

例

import pandas as pd
import matplotlib.pyplot as plt

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 25, 30, 40]
}
df = pd.DataFrame(data)

# 绘制折线图
df.plot(kind='line')
# 显示图表
plt.show()

# 绘制柱状图,可知道x 和 y 轴。不指定默认x 从0-n,其他都是y
df.plot(kind='bar',x='A', y='B')
# 显示图表
plt.show()

# 绘制散点图
df.plot(kind='scatter', x='A', y='B')
# 显示图表
plt.show()



# 创建一个示例 Series
data = {
    'A': 10,
    'B': 20,
    'C': 30,
    'D': 40
}
series = pd.Series(data)
# 绘制饼图
series.plot(kind='pie', autopct='%1.1f%%')
# 显示图表
plt.show()

你可能感兴趣的:(pandas,python,ai)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &