灯不怕冷

Python数据分析03：Numpy数组和通用函数

CHAPTER 4 NumPy Basics: Arrays and Vectorized Computation

文章目录

CHAPTER 4
NumPy Basics: Arrays and Vectorized Computation

4.1 Numpy ndarry：一种多维数组对象（The NumPy ndarray: A Multidimensional Array Object）

4.1.1 创建ndarray（Creating ndarrays）
4.1.2 ndarray的数据类型（Data Types for ndarrays）
4.1.3 Numpy数组的运算（Arithmetic with NumPy Arrays）
4.1.4 基本的索引和切片（Basic Indexing and Slicing）

4.1.4.1 切片索引（Indexing with slices）

4.1.5 布尔型索引（Boolean Indexing）
4.1.6 花式索引（Fancy Indexing）
4.1.7 数组转置和轴对换（Transposing Arrays and Swapping Axes）

4.2 通用函数：快速点对点数组函数（Universal Functions: Fast Element-Wise Array Functions）

4.2.1 通用函数（Universal Functions）

NumPy（Numerical Python的简称）。在数值计算领域，说Numpy是python最重要的包也不为过。在numpy中有下面这些东西：

ndarray，⼀个具有矢量算术运算和复杂⼴播（broadcasting）能力的快速且节省空间的多维数组；
⽤于对整组数据进行快速运算的标准数学函数（无需编写循环）；
用于读取/写入(reading/writing)数据到磁盘以及用于操作内存映射文件的便利工具；
线性代数，随机数生成，傅里叶变换能力；
可以用A C API来写C，C++，或FORTRAN。

通过学习理解numpy中数组和数组导向计算，能帮我们理解pandas之类的工具。

NumPy可以⾼效处理⼤数组的数据。这是因为：

NumPy是在⼀个连续的内存块中存储数据，独⽴于其他Python内置对象。比起Python的内置序列，NumPy数组使⽤的内存更少。
NumPy可以在整个数组上执⾏复杂的计算，而不需要Python的for循环。

下面考察一下性能，⼀个包含⼀百万整数的数组和⼀个等价的Python列表分别乘2，比较一下CPU的运行时间：

>>>import numpy as np
>>>my_arr = np.arange(1000000)
>>>my_list = list(range(1000000))
>>>%time for _ in range(10): my_arr2 = my_arr * 2
Wall time: 32.9 ms
>>>%time for _ in range(10): my_list2 = [x * 2 for x in my_list]
Wall time: 1.25 s

4.1 Numpy ndarry：一种多维数组对象（The NumPy ndarray: A Multidimensional Array Object）

N-dimensional array object（n维数组对象ndarray），这是numpy的关键特征。先来尝试一下，生成一个随机数组：

>>>import numpy as np  #加载时的惯例
# Generate some random data
>>>data = np.random.randn(2, 3)
>>>data
array([[ 0.27813353, -0.46898668,  0.86191913],
       [-0.73249681,  0.65420047,  0.48453482]])

进行一些数学运算：

>>>data * 10  # 数组元素乘以10
array([[ 2.78133531, -4.68986681,  8.61919133],
       [-7.32496812,  6.54200474,  4.84534822]])
>>>data + data * 10  # 相当于乘以11
array([[ 3.05946884, -5.15885349,  9.48111047],
       [-8.05746493,  7.19620521,  5.32988304]])

每个数组都有⼀个shape（表示各维度大小的元组）和⼀个dtype（用于说明数组数据类型的对象）：

>>>data.shape
(2, 3)
>>>data.dtype
dtype('float64')

“数组”、“NumPy数组”、“ndarray”，基本上都指的是同⼀样东西，即ndarray对象

4.1.1 创建ndarray（Creating ndarrays）

最简单的方法使用array函数，输入一个序列即可，比如list：

>>>data1 = [6, 7.5, 8, 0, 1]
>>>arr1 = np.array(data1)
>>>arr1
array([6. , 7.5, 8. , 0. , 1. ])

嵌套序列能被转换为多维数组：

>>>data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
>>>arr2 = np.array(data2)
>>>arr2
array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

因为data2是一个list of lists, 所以arr2维度为2。我们用ndim和shape属性来确认一下：

>>>arr2.ndim
2
>>>arr2.shape
(2, 4)

除非主动声明，否则np.array会自动给data搭配适合的类型，并保存在dtype里：

>>>arr1.dtype
dtype('float64')
>>>arr2.dtype
dtype('int32')

除了np.array，还有一些其他函数能创建数组。比如zeros，ones；另外还可以在一个tuple里指定shape：

>>>np.zeros(10)
array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])
>>>np.zeros((3, 6))
array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])
>>>np.empty((2, 3, 2))
array([[[1.10782703e-311, 2.47032823e-322],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 8.75983079e+164]],

       [[4.71754256e-090, 1.48575043e-076],
        [5.41689273e-067, 1.86317740e+160],
        [3.99910963e+252, 1.46030983e-319]]])

注意：np.empty并不能保证返回所有是0的数组，某些情况下，会返回为初始化的垃圾数值。

arange函数是Python内置函数range的数组版：

np.arange(15)
#####
array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

这里是一些创建数组的函数：

函数	描述
`array`	通过推断数据类型或显式指定数据类型，将输入数据(列表、元组、数组或其它序列类型)转换为ndarray；默认情况下复制输入数据
`asarray`	将输入转换为ndarray，但如果输入已经是ndarray，则不会复制
`arange`	类似于内置`range`函数，但返回一个ndarray而不是一个列表
`ones`, `ones_like`	`ones`是根据指定的形状和dtype创建一个全1数组；`ones_like`以另一个数组为参数，并根据其形状和dtype创建一个全1数组
`zeros`, `zeros_like`	类似于`ones`和 ones like，只不过产生的是全0数组
`empty`, `empty_like`	创建新数组，只分配新内存但不填充任何值，比如`ones`和`zeros`
`full`, `full_like`	用 "fill value"中的所有值，根据指定的形状和dtype创建一个数组；`full_like`使用另一个数组并生成一个相同形状和dtype的数组
`eye`, `identity`	创建一个N×N单位矩阵（对角线上为1，其他地方为0）

4.1.2 ndarray的数据类型（Data Types for ndarrays）

dtype保存数据的类型：

>>>arr1 = np.array([1, 2, 3], dtype=np.float64)
>>>arr2 = np.array([1, 2, 3], dtype=np.int32)
>>>arr1.dtype
dtype('float64')
>>>arr2.dtype
dtype('int32')

dtype才是numpy能灵活处理其他外界数据的原因，我们看看Numpy的数据类型：

>>>arr = np.array([1, 2, 3, 4, 5])
>>>arr.dtype
dtype('int32')
>>>float_arr = arr.astype(np.float64)
>>>float_arr.dtype
dtype('float64')

如果是把float变为int，小数点后的部分会被丢弃：

>>>arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
>>>arr
array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

>>>arr.astype(np.int32)
array([ 3, -1, -2,  0, 12, 10], dtype=int32)

还可以用astype把string里的数字变为实际的数字：

>>>numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
>>>numeric_strings
array([b'1.25', b'-9.6', b'42'], dtype='|S4')
>>>numeric_strings.astype(float)
array([ 1.25, -9.6 , 42.  ])

要十分注意numpy.string_类型，这种类型的长度是固定的，所以可能会直接截取部分输入而不给警告。

如果转换（casting）失败的话，会给出一个ValueError提示。

可以用其他数组的dtype直接来制定类型：

>>>int_array = np.arange(10)
>>>calibers = np.array([.22, .270, .357, .380, .44, .50], dtype=np.float64)
>>>int_array.astype(calibers.dtype)
array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

还可以利用类型的缩写，比如u4就代表unit32：

>>>empty_unit32 = np.empty(8, dtype='u4')
>>>empty_unit32
array([         0, 1075314688,          0, 1075707904,          0,
       1075838976,          0, 1072693248], dtype=uint32)

记住：调用astype总会创建⼀个新的数组

4.1.3 Numpy数组的运算（Arithmetic with NumPy Arrays）

数组之所以重要，是因为不用写for循环就能表达很多操作，这种特性叫做vectorization(向量化)。任何两个大小相等的数组之间的运算，都是element-wise（点对点）：

>>>arr = np.array([[1., 2., 3.], [4., 5., 6.]])
>>>arr
array([[1., 2., 3.],
       [4., 5., 6.]])
>>>arr * arr
array([[ 1.,  4.,  9.],
       [16., 25., 36.]])
>>>arr - arr
array([[0., 0., 0.],
       [0., 0., 0.]])

element-wise，就是指两个数组的运算，在同一位置的元素间才会进行运算。

这种算数操作如果涉及标量（scalar）的话，会涉及到数组的每一个元素：

>>>1 / arr
array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])
>>>arr ** 0.5
array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

两个数组的比较会产生布尔数组：

>>>arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
>>>arr2
array([[  0.,   4.,   1.],
       [  7.,   2.,  12.]])
>>>arr2 > arr
array([[False,  True, False],
       [ True, False,  True]], dtype=bool)

4.1.4 基本的索引和切片（Basic Indexing and Slicing）

一维的我们之前已经在list（Python列表）部分用过了，没什么不同：

>>>arr = np.arange(10)
>>>arr
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>>arr[5]
5
>>>arr[5:8]
array([5, 6, 7])
>>>arr[5:8] = 12
>>>arr
array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

这里把12赋给arr[5:8]，其实用到了broadcasted（我觉得应该翻译为广式转变）。这里有一个比较重要的概念需要区分，python内建的list与numpy的array有个明显的区别，这里array的切片后的结果只是一个views（视图），用来代表原有array对应的元素，而不是创建了一个新的array。但list里的切片是产生了一个新的list：

>>>arr_slice = arr[5:8]
>>>arr_slice
array([12, 12, 12])

如果我们改变arr_slice的值，会反映在原始的数组arr上：

>>>arr_slice[1] = 12345
>>>arr
array([    0,     1,     2,     3,     4,    12, 12345,    12,     8,
           9])

切片[:]这个赋值给所有元素：

>>>arr_slice[:] = 64
>>>arr
array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

之所以这样设计是出于性能和内存的考虑，毕竟如果总是复制数据的话，会很影响运算时间。当然如果想要复制，可以使用copy()方法，比如arr[5:8].copy()

>>>arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
>>>arr2d[2]
array([7, 8, 9])

有两种方式可以访问单一元素：

>>>arr2d[0][2]
3
>>>arr2d[0, 2]
3

我们可以把下图中的axis0看做row（行），把axis1看做column（列）：

对于多维数组，如果省略后面的索引，返回的将是一个低纬度的多维数组。比如下面一个2x2x3数组：

>>>arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
>>>arr3d
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

arr3d[0]是一个2x3数组：

>>>arr3d[0]
array([[1, 2, 3],
       [4, 5, 6]])

标量和数组都能赋给arr3d[0]：

>>>old_values = arr3d[0].copy()
>>>arr3d[0] = 42
>>>arr3d
array([[[42, 42, 42],
        [42, 42, 42]],

       [[ 7,  8,  9],
        [10, 11, 12]]])
>>>arr3d[0] = old_values
>>>arr3d
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

arr3d[1, 0]会给你一个(1, 0)的一维数组：

>>>arr3d[1, 0]
array([7, 8, 9])

>>>x = arr3d[1]
>>>x
array([[ 7,  8,  9],
       [10, 11, 12]])
>>>x[0]
array([7, 8, 9])

一定要牢记这些切片后返回的数组都是views(视图)

4.1.4.1 切片索引（Indexing with slices）

一维的话和python里的list没什么差别：

>>>arr
array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])
>>>arr[1:6]
array([ 1,  2,  3,  4, 64])

二维的话，数组的切片有点不同：

>>>arr2d
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])
>>>arr2d[:2]
array([[1, 2, 3],
       [4, 5, 6]])

可以看到，切片是沿着axis 0（行）来处理的。所以，数组中的切片，是要沿着设置的axis来处理的。我们可以把arr2d[:2]理解为“选中arr2d的前两行”。

当然，给定多个索引后，也可以使用复数切片：

>>>arr2d[:2, 1:]  #前两行，第一列之后
array([[2, 3],
       [5, 6]])

记住，选中的是array view。通过混合整数，能做低维切片。比如：

>>>arr2d[1, :2]  #选中第二行的前两列
array([4, 5])
>>>arr2d[:2, 2]  #选中第三列的前两行
array([3, 6])

冒号表示提取整个axis（轴）：

>>>arr2d[:, :1]
array([[1],
       [4],
       [7]])

对切⽚表达式的赋值操作也会被扩散到整个选区：

>>>arr2d[:2, 1:] = 0
>>>arr2d
array([[1, 0, 0],
       [4, 0, 0],
       [7, 8, 9]])

⼆维数组切片图示：

4.1.5 布尔型索引（Boolean Indexing）

假设我们的数组数据里有一些重复。这里我们用numpy.random里的randn函数来随机生成一些离散数据：

>>>names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
>>>data = np.random.randn(7, 4)
>>>names
array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype=')
>>>data
array([[-1.83802388,  0.99744648,  0.74242634, -0.80980885],
       [ 0.7502862 , -0.26503749, -0.32864712, -0.36100913],
       [-0.93981224, -1.06890467, -1.51573876,  1.03480672],
       [ 1.47333765, -1.65837428, -0.71768973, -0.53103594],
       [ 1.18384176, -2.02514422,  0.67444943,  0.48758923],
       [-1.01212867, -0.94724227, -0.28680484, -0.27459748],
       [-0.65620136,  0.87733924, -1.28361842,  1.57325754]])

假设每一个name对应data数组中的一行，我们想要选中name为’Bob’的所有行。就像四则运算，用比较运算符==：

>>>names == 'Bob'
array([ True, False, False,  True, False, False, False])

然后用这个布尔数组当做索引：

>>>data[names == 'Bob']
array([[-1.83802388,  0.99744648,  0.74242634, -0.80980885],
       [ 1.47333765, -1.65837428, -0.71768973, -0.53103594]])

注意：布尔数组和data数组的长度要一样。

我们可以选中names=='Bob'的行，然后索引列：

>>>data[names == 'Bob', 2:]
array([[ 0.74242634, -0.80980885],
       [-0.71768973, -0.53103594]])
>>>data[names == 'Bob', 3]
array([-0.80980885, -0.53103594])

选中除了’Bob’外的所有行，可以用!=或者~：

>>>names != 'Bob'
array([False,  True,  True, False,  True,  True,  True])
>>>data[~(names == 'Bob')]
array([[ 0.7502862 , -0.26503749, -0.32864712, -0.36100913],
       [-0.93981224, -1.06890467, -1.51573876,  1.03480672],
       [ 1.18384176, -2.02514422,  0.67444943,  0.48758923],
       [-1.01212867, -0.94724227, -0.28680484, -0.27459748],
       [-0.65620136,  0.87733924, -1.28361842,  1.57325754]])

当想要反转一个条件时，用~操作符很方便：

>>>cond = names == 'Bob'
>>>data[~cond]
array([[ 0.7502862 , -0.26503749, -0.32864712, -0.36100913],
       [-0.93981224, -1.06890467, -1.51573876,  1.03480672],
       [ 1.18384176, -2.02514422,  0.67444943,  0.48758923],
       [-1.01212867, -0.94724227, -0.28680484, -0.27459748],
       [-0.65620136,  0.87733924, -1.28361842,  1.57325754]])

选中2个或3个名字，组合多个布尔条件，用布尔运算符&，|，另外python中的关键词and和or不管用：

>>>mask = (names == 'Bob') | (names == 'Will')  #或者or
>>>mask
array([ True, False,  True,  True,  True, False, False])
>>>data[mask]
array([[-1.83802388,  0.99744648,  0.74242634, -0.80980885],
       [-0.93981224, -1.06890467, -1.51573876,  1.03480672],
       [ 1.47333765, -1.65837428, -0.71768973, -0.53103594],
       [ 1.18384176, -2.02514422,  0.67444943,  0.48758923]])

用布尔索引总是会返回一份新创建的数据，原本的数据不会被改变。

更改值的方式也很直观。比如我们想让所有负数变为0：

>>>data[data < 0] = 0
>>>data
array([[0.        , 0.99744648, 0.74242634, 0.        ],
       [0.7502862 , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 1.03480672],
       [1.47333765, 0.        , 0.        , 0.        ],
       [1.18384176, 0.        , 0.67444943, 0.48758923],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.87733924, 0.        , 1.57325754]])

用一维的布尔数组也能更改所有行或列：

>>>names
array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype=')
>>>data[names != 'Joe'] = 7
>>>data
array([[7.        , 7.        , 7.        , 7.        ],
       [0.7502862 , 0.        , 0.        , 0.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.87733924, 0.        , 1.57325754]])

4.1.6 花式索引（Fancy Indexing）

通过整数数组来索引。假设我们有一个8 x 4的数组：

>>>arr = np.empty((8, 4))
>>>for i in range(8):
>>>    arr[i] = i
>>>arr
array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

想要按一定顺序选出几行，可以用一个整数list或整数ndarray来指定顺序：

>>>arr[[4, 3, 0, 6]]
array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

用符号来从后选择row：

>>>arr[[-3, -5, -7]]
array([[5., 5., 5., 5.],
       [3., 3., 3., 3.],
       [1., 1., 1., 1.]])

用多维索引数组，能选出由一维数组中的元素，通过在每个tuple中指定索引：

>>>arr = np.arange(32).reshape((8, 4))
>>>arr
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])
>>>arr[[1, 5, 7, 2], [0, 3, 1, 2]]
array([ 4, 23, 29, 10])

可以看到[ 4, 23, 29, 10]分别对应(1, 0), (5, 3), (7, 1), (2, 2)。不论数组有多少维，fancy indexing的结果总是一维。

>>>arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]
array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

上面的意思是，先从arr中选出[1, 5, 7, 2]这四行：

array([[ 4,  5,  6,  7],
       [20, 21, 22, 23],
       [28, 29, 30, 31],
       [ 8,  9, 10, 11]])

然后[:, [0, 3, 1, 2]]表示选中所有行，但是列的顺序要按0,3,1,2来排。于是得到：

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

要记住，fancy indexing和切片不同，得到的是一个新的array。

4.1.7 数组转置和轴对换（Transposing Arrays and Swapping Axes）

转置也是返回一个view，而不是新建一个数组。有两种方式，一个是transpose方法，一个是T属性：

>>>arr = np.arange(15).reshape((3, 5))
>>>arr
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])
>>>arr.T
array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

做矩阵计算的时候，这个功能很常用，计算矩阵乘法的时候，用np.dot:

>>>arr = np.arange(15).reshape((3, 5))
>>>arr
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])
>>>arr.T
array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])
>>>np.dot(arr.T, arr)
array([[125, 140, 155, 170, 185],
       [140, 158, 176, 194, 212],
       [155, 176, 197, 218, 239],
       [170, 194, 218, 242, 266],
       [185, 212, 239, 266, 293]])

上面的例子是 (5x3) x (3x5) = (5x5)。得到的结果是5x5维，就是普通的矩阵乘法。

对于多维数组，transpose会接受由轴编号组成的tuple，来交换轴：

>>>arr = np.arange(16).reshape((2, 2, 4))
>>>arr
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])
>>>arr.transpose((1, 0, 2))
array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

使用.T来转置swapping axes(交换轴)的一个特殊情况。ndarray有方法叫做swapaxes, 这个方法取两个axis值，并交换这两个轴：

>>>arr
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])
>>>arr.swapaxes(1, 2)  #只交换second axis和last axis
array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

swapaxes也是返回view，不生成新的data。

4.2 通用函数：快速点对点数组函数（Universal Functions: Fast Element-Wise Array Functions）

universal function, 或 ufunc, 是用来在ndarray中实现element-wise操作的。

可以认为这个ufunc可以把一些简单的函数做快速的向量化封装，输入是一个或多个标量，输出也是一个或多个标量。

很多ufuncs都是点对点的变换，像sqrt或exp：

>>>import numpy as np
>>>arr = np.arange(10)
>>>arr
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>>np.sqrt(arr)
array([ 0.        ,  1.        ,  1.41421356,  1.73205081,  2.        ,
        2.23606798,  2.44948974,  2.64575131,  2.82842712,  3.        ])
>>>np.exp(arr)
array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

这些函数叫做一元通用函数（unary ufuncs）。其他一些函数，比如add或maximum，需要两个数组（binary ufuncs）,并返回一个数组作为结果：

>>>x = np.random.randn(8)
>>>y = np.random.randn(8)
>>>x
array([ 0.49571348, -1.33311818, -0.23348991, -0.59885667,  1.4995727 ,
       -0.26874393, -0.02278506, -0.12015841])
>>>y
array([ 0.13618795, -0.41214895,  0.50087747,  0.91431258, -0.06031165,
       -0.5692135 , -1.0948818 ,  1.68605986])
>>>np.maximum(x, y)  #取相应位置上最大的元素
array([ 0.49571348, -0.41214895,  0.50087747,  0.91431258,  1.4995727 ,
       -0.26874393, -0.02278506,  1.68605986])

尽管不常见，但ufunc也能返回多个数组。例如modf，这是一个向量版的divmod（python内建函数），modf会返回小数部分和整数部分：

本函数是实现a除以b，然后返回商与余数的元组。如果两个参数a,b都是整数，那么会采用整数除法，结果相当于（a//b, a % b)。如果a或b是浮点数，相当于（math.floor(a/b), a%b)。

>>>arr = np.random.randn(7) * 5
>>>arr
array([ 4.64583719, -3.06159131, 10.77703888, -4.46311365, -5.44400588,
        3.11527145, -0.51038373])
>>>remainder, whole_part = np.modf(arr)
>>>remainder
array([ 0.64583719, -0.06159131,  0.77703888, -0.46311365, -0.44400588,
        0.11527145, -0.51038373])
>>>whole_part
array([ 4., -3., 10., -4., -5.,  3., -0.])

ufunc能接受一个可选参数作为输出，这样可以直接更改原有的数组：

>>>arr
array([       nan,        nan,        nan,        nan, 1.91152854,
              nan, 1.19599591])
>>>np.sqrt(arr)
array([       nan,        nan,        nan,        nan, 1.91152854,
              nan, 1.19599591])
>>>np.sqrt(arr, arr)
array([       nan,        nan,        nan,        nan, 1.91152854,
              nan, 1.19599591])
>>>arr
array([       nan,        nan,        nan,        nan, 1.91152854,
              nan, 1.19599591])

4.2.1 通用函数（Universal Functions）

一元通用函数（Unary universal functions）

函数	描述
`abs`, `fabs`	计算整数、浮点或复数的绝对值；对于非复数值，可以使用更快的`fabs`
`sqrt`	计算各元素的平方根，相当于arr**0.5
`square`	计算各元素的平方，相当于arr**2
`exp`	计算各元素的指数 $e^x$
`log`, `log10`, `log2`, `log1p`	分别以自然对数（底数为e）、底数为10的log、底数为2的log、log(1+x)
`sign`	计算各元素的正负号：1（正数）、0（零）、-1（负数）
`ceil`	计算各元素的ceiling值，即大于等于该值的最小整数
`floor`	计算各元素的floor值，即小于等于该值的最大整数
`rint`	将各元素值四舍五入到最接近的整数，保留dtype
`modf`	将数组的小数和整数部分以两个独立数组的形式返回
`isnan`	返回一个表示“那些值是NaN（这不是一个数字）”的布尔型数组
`isfinite`, `isinf`	分别返回一个表示“哪些元素是有穷的（非inf，非NaN）”或“哪些元素是无穷的”的布尔型数组
`cos`, `cosh`, `sin`, `sinh`, `tan`, `tanh`	普通型和双曲型三角函数
`arccos`, `arccosh`, `arcsin`, `arcsinh`, `arctan`, `arctanh`	反三角函数
`logical_not`	计算各元素not x的真值；相当于-arr

二元通用函数（Binary universal functions）

函数	描述
`add`	将数组中对应的元素相加
`subtract`	从第一个数组中减去第二个数组中的元素
`multiply`	数组元素相乘
`divide`,`floor_divide`	除法（舍弃余数）
`power`	对第一个数组中的元素A，根据第二个数组中的元素B，计算 $A^B$
`maximum`, `fmax`	保留两个数组对应元素处的最大值，忽略NaN
`minimum`, `fmin`	保留两个数组对应元素处的最小值，忽略NaN
`mod`	元素方向的模量(除法的余数)
`copysign`	将第二个参数中的值符号复制给第一个参数中的值
`greater`, `greater_equal`, `less`, `less_equal`, `equal`, `not_equal`	执行元素比较，生成布尔型数组，相当于运算符>，>=，<，<=，==，!=
`logical_and`, `logical_or`, `logical_xor`	计算逻辑运算的元素真值，相当于运算符& ，\|，^

参考资料：

利用Python进行数据分析学习笔记（有惊喜^_^）

书籍：《Python for Data Analysis》

你可能感兴趣的:(利用Python进行数据分析)

python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
技术书籍推荐(002) 陌尘(MoChen) 技术书籍 c++Python Java JavaScript Go
20.利用Python进行数据分析免费电子书PDF下载书籍简介：本书聚焦于使用Python进行数据处理和分析。详细介绍了Python中用于数据分析的重要库，如NumPy（提供高效的数值计算功能，包括数组操作、数学函数等）、pandas（用于数据清洗、分析和结构化处理，具备数据导入导出、数据分组聚合等强大功能）以及matplotlib（用于数据可视化，可创建各种类型的图表，如折线图、柱状图、散点图等
numpy将所有数据变为0和1_《利用python进行数据分析》1.0——Numpy库 weixin_39849888 numpy将所有数据变为0和1
目录：Tab键自动完成%run命令“Ctri-C”中断正在执行的代码忘记输入和输出文本怎么办创建数组zero和onesarange()，生成一定长度的数量dtype,将一块内存解释为TED数据类型所需的信息astype,转换dtype切片布尔型索引花式索引：利用整数数组进行索引数据转置和轴兑换通用函数np.meshgrid函数(接受两个一维数组，并产生两个二维矩阵)np.where函数(根据另一个
如何利用Python进行数据分析与可视化的具体操作指南 Stanford_1106 学习关于Python python twitter 微信开放平台微信小程序微信公众平台 c++开发语言
成长路上不孤单【14后///C++爱好者///持续分享所学///如有需要欢迎收藏转发///】今日分享关于如何利用Python进行数据分析与可视化的具体操作的相关内容！数据可视化是数据分析中的关键步骤，旨在通过图表和图形将数据的规律和趋势直观地展示出来。Python作为一种强大的编程语言，提供了丰富的库和工具来处理数据分析和可视化任务。如Matplotlib和Seaborn，使得数据可视化变得简单而
怎么在python中读取电脑里的数据集_利用Python读取外部数据文件 weixin_39724004
不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同样最重要的一步就是如何将数据导入到Python中，然后才可以实现后面的数据分析、数据可视化、数据挖掘等。在本期的Python学习中，我们将针对Python如何获取外部数据做一个详细的介绍，从中我们将会学习以下4个方面的数据获取：1、读取文本文件的数据，如txt文件和csv文件2、读取电
技术书籍推荐(002):电子书免费下载 c++
20.利用Python进行数据分析免费电子书PDF下载下载地址：http://t-book.sunlogging.com/2025/03/24/book/book_0020/书籍简介：本书聚焦于使用Python进行数据处理和分析。详细介绍了Python中用于数据分析的重要库，如NumPy（提供高效的数值计算功能，包括数组操作、数学函数等）、pandas（用于数据清洗、分析和结构化处理，具备数据导入
说一些python的技术干货，不能再干了 Helena__a python 开发语言
今天我们主要来详细讲解一下Pyhon从基础语法到高级的应用，例如如何利用Python进行数据分析、搭建Web应用，示例代码丰富且讲解清晰，对于这些想学习Python的新手小白有着很高的吸引力哦！一、Python基础语法精要（一）变量与数据类型Python无需提前声明变量类型，赋值即定义。例如：pythonname="John"#字符串类型age=25#整数类型height=1.75#浮点数类型is
利用python进行数据分析（重点、易忘点）---第五章Pandas基础学习 tenderjets 利用python进行数据分析 pandas
之前看的pandas的教材和课程里，内容参差不齐，实际使用很少的方法的内容有点多，导致很乱而且记不住那么多，这个帖子尽量用最少的文字，最精炼的语言来总结比较实用的方法，内容主要来源于《利用python进行数据分析》。1.创建Series直接给列表，加index。obj=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])也可以用字典sdata={'O
《利用python进行数据分析》——3.1数据结构和序列——元组、列表、字典、集合——读书笔记 pillow_L python数据分析
第3章Python的数据结构、函数和文件3.1数据结构和序列Python中常见的数据结构可以统称为容器。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。1.元组——tuple元组是一个固定长度，不可改变的Python序列对象。元组与列表一样，也是一种序列，唯一不同的是元组不能被修改（字符串其实也有这种特点）元组Tuple，一经初始化，就不能修改，没有列表List中的appe
打卡第13天：《利用python进行数据分析》学习笔记且不了了
第7章——数据规整化：清理、转换、合并、重塑数据变换http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch7/20180405.ipynb
matplotlib和seaborn绘图 Oliveee
https://www.jianshu.com/p/7a0eafdd1340《利用Python进行数据分析·第2版》第9章绘图和可视化matplotlib引入%matplotlibnotebookimportmatplotlib.pyplotasplt简单示例fig=plt.figure()ax1=fig.add_subplot(2,2,1)ax2=fig.add_subplot(2,2,2)ax
《利用Python进行数据分析》附录 A.3 广播 CCC考研
附录A高阶NumpyA.3广播广播描述了算法如何在不同形状的数组之间进行运算。它是一个强大的功能，但可能会导致混淆，即使对于有经验的用户也是如此。1.最简单的广播示例发生在将标量值与数组组合的时候（见图A-1）图A-1:简单广播注：有关此操作的说明，请参见图A-2。对行进行减均值的广播需要更小心。幸运的是，只要遵循规则，就可以在数组的任何维度上对潜在较低维度值进行广播（例如从二维数组的每一列中减去
Week 02 Python初步图小加
本周是Python的基本使用，从真正小白零接触，跟着大神们开始学习参考书：利用Python进行数据分析（原书第2版）中第三章和第五章一、Python基础1）Python环境安装（1）下载anaconda是python的包管理器和环境管理器，是在conda（一个包管理器和环境管理器）上发展出来的。在数据分析中，将会用到很多第三方的包，而conda（包管理器）可以很方便地在计算机上安装和管理这些包，包
《利用Python进行数据分析》 14.2 MovieLens 1M数据集 CCC考研
第十四章数据分析示例注：本章示例数据集可在附带的GitHub仓库（http://github.com/wesm/pydata-book）中找到14.2MovieLens1M数据集GroupLens实验室（http://www.grouplens.org/node/73）提供了一些从MovieLens用户那里收集的20世纪90年代末和21世纪初的电影评分数据的集合。这些数据提供了电影的评分、电影的元
2018-11-28 wangyou2550
python书籍入门：python基础教程第二版，笨方法学python进阶：流畅的python，effictivepython，Python编程实战，编写高质量代码：python，python核心编程第三版，PythonCookbook中文版第3版计算：python科学计算，利用Python进行数据分析前端：FlaskWeb开发：基于Python的Web应用开发实战，DjangoWeb开发指南网络
【读书笔记】《利用Python进行数据分析》第2版_第二章：Python语言基础、IPython及Jupyternotebook is_colorful python python pytorch 深度学习
推荐使用IPython命令行和Jupyternotebook来实验代码示例，以及探索各种类型、函数和方法的文档。和其他键盘控制的命令行环境一样，练就常用命令的肌肉记忆也是学习曲线的一部分。优秀Python书籍推荐《PythonCookbook》（第3版），作者为DavidBeazley和BrianK.Jones（O’Reilly）《FluentPython》，作者为LucianoRamalho（O
利用python进行数据分析(第二版)_第十四章 shifanfashi 数据分析数据分析
本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。#14.1来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.gov或.
利用Python进行数据分析的学习笔记——chap10 调停者จุ๊บ 笔记 python 开发语言后端
时间序列日期和时间数据类型及工具fromdatetimeimportdatetimenow=datetime.now()nowdatetime.datetime(2022,3,4,8,23,31,842698)now.year,now.month,now.day(2022,3,4)#时间差delta=datetime(2022,3,3)-datetime(1998,10,20,8,10)delta
利用python进行数据分析(1) Doter
第一章一.数据的类型表格数据多维数据(矩阵)多张表数据(主外键关联)时间序列二.重要的Python库NumPy基础数据结构和函数pandas高级数据结构和函数matplotlib二维数据可视化IPython和Jupyter交互Scipy科学计算领域scikit-learn机器学习包statsmodels统计分析包第二章Python基础略第三章NumPy菜鸟教程比书详细第四章pandas易百教程最简
学习python数据分析必看，《利用Python进行数据分析》新潮看世界
利用Python进行数据分析pdf:讲述了从pandas库的数据分析工具开始利用高性能工具、matpIotlib、pandas的groupby功能等处理各种各样的时间序列数据。
NumPy教程（一）—— ndarray：多维数组对象 m0_61766362 Numpy python学习笔记 numpy python 学习方法
前言该numpy学习笔记参考了菜鸟教程网、b站up主孙兴华zz的《孙兴华中文讲python数据分析三部曲》以及《北理-python数据分析与展示》，课本推荐使用《利用python进行数据分析》Numpy简介：NumPy(NumericalPython)是Python语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。1.数组(array)的介绍数组是相同数据
字符串与正则表达式python实验报告分析_《利用Python进行数据分析》第7章字符串操作与正则表达式... weixin_39615257
字符串操作Python有简单易用的字符串和文本处理功能，大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作，则可能需要用到正则表达式。字符串对象方法以逗号分隔的字符串可以用split拆分成数段In[4]:val='a,bc,c,gudio'In[5]:val.split(',')Out[5]:['a','bc','c','gudio']In[6]:val='a,bc,
chatgpt赋能python：Python统计总分——利用Python进行数据分析 laingziwei ChatGpt python chatgpt 开发语言计算机
Python统计总分——利用Python进行数据分析Python是一门流行的编程语言，有着广泛的应用领域。其中，Python在数据分析和统计领域也发挥着重要作用。本文将介绍如何利用Python进行数据分析，进而实现统计总分的功能。什么是数据分析？数据分析是指用各种统计方法对数据进行处理和分析，以获取数据中的信息和规律，并进行有效的决策。在现代社会中，数据分析已经成为了各行各业必备的技能之一。而Py
打卡第11天：《利用python进行数据分析》学习笔记且不了了
第五章——pandas入门第二部分：pandas主要功能（四）http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch5/20180403.ipynb
day14：《利用python进行数据分析》学习笔记且不了了
第7章——数据规整化：清理、转换、合并、重塑字符串处理http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch7/20180406.ipynb
《利用Python进行数据分析》 13.1pandas与建模代码的结合 CCC考研
第十三章Python建模库介绍13.1pandas与建模代码的结合使用pandas用于数据载入和数据清洗，之后切换到模型库去建立模型是一个常见的模型开发工作流。在机器学习中，特征工程是模型开发的重要部分之一。特征工程是指从原生数据集中提取可用于模型上下文的有效信息的数据转换过程或分析，书中会展示一些可以在利用pandas进行数据操作和建模之间无痛切换的方法。1.panas和其他分析库的结合点通常是
利用python进行数据分析第十四章 14.3 1880-2010年间全美婴儿姓名小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
14.31880-2010年间全美婴儿姓名美国社会保障总署（SSA）ᨀ供了一份从1880年到现在的婴儿名字频率数据。HadleyWickham（许多流行R包的作者）经常用这份数据来演示R的数据处理功能。我们要做一些数据规整才能加载这个数据集，这么做就会产生一个如下的DataFrame：In[4]:names.head(10)Out[4]:namesexbirthsyear0MaryF7065188
利用python进行数据分析第十四章 14.5 2012联邦选举委员会数据库小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
14.52012联邦选举委员会数据库美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。我们对2012年美国总统大选的数据集比较感兴趣（http://www.fec.gov/disclosurep/PDownload.do）。我在2012年6月下载的数据集是一个150MB的CSV文件（P00000001-ALL.csv），我们先用pandas
利用python进行数据分析第十章数据聚合与分组运算小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandasᨀ供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（StructuredQueryLanguage，结构化查询语言）能够如此流行的原因之一就是其能够方便地对数
利用python进行数据分析第十三章 Python建模库介绍小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
本书中，我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间，这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决，比如普通的最小二乘回归，其它问题可能需要复杂的机器学习方法。幸运的是，Python已经成为了运用这些分析方法的语言之一，因此读完此书，你可以探索许多工具。本章中，我会回顾一些pandas的特点，
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比