数据分析常用的库(更新中):Numpy\Pandas\Matplotlib

注:本文写的比较混乱,主要为机器学习打基础用,很多函数没有记录,大家可以去查工具书

00、开发环境:Jupyter Notebook

下载地址:建议去清华镜像下载:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/,如果去官网下载会很慢,因为是外网。
找到最新的64位,下载安装即可
在这里插入图片描述
进入的方法:首先找到你要存放文件的盘,然后输入cd+路径进入该文件夹。最后输入jupyter notebook会自动弹出来网页供你使用编辑。(注意:敲代码过程中不要关闭下面这个命令窗口,否则会掉线)
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第1张图片

一、数值计算扩展工具——Numpy

(1)numpy中的数组
数组和列表基本差不多,但有两个小区别,第一个是数组只能存储相同的数据类型,如果出现了不同的数据类型,那么会自动进行调整。第二个就是说数组是多维了,如果多维数组数据都是数值,那么就可以理解为线性代数中的矩阵。
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第2张图片

如何创建数组?
Numpy经常和数组打交道,所以第一步要学会创建数组。在Numpy中数组的数据类型叫做ndarray。
数组的第一种创建方式:使用np.array([])创建,如上面那张图所示
第二种方式是啥捏,使用np.arange()来创建,其实类似与Python中的range函数
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第3张图片
这里实际上也是np.arange(start, end, step),左闭右开[start, end)
第三种创建方式就是使用random函数,也就是np.random.random((行数,列数)),这里是套娃,括号里还有个括号,也不知道为啥,记住就完事儿了。最终生成一个0~1的随机数的多维数组,也是套娃,数组里还有数组。
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第4张图片
还是第三种方式,如果说想自定义随机数的范围,那么语法是这样滴:np.random.randint(开始数,结束数,size=(行数,列数)),如下图所示:
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第5张图片
第四种方式比较秀,使用函数来生成特殊的数组,话不多说直接上图:
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第6张图片
数组中有哪些数据类型呢?
话不多说直接上图
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第7张图片
输出数组的维数:.ndim ,表示数组的形状(几行几列):.shape
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第8张图片
剩下的不多记了,有需要的去查书。下面是我听的那个老师的总结:
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第9张图片
(2)Numpy中多维数组的索引和切片
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第10张图片
(3)Numpy中数值的替换操作
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第11张图片
(4)数组的形状操作:reshape和resize
这两个东西是有区别的,其中reshape不会改变原数组,而resize会直接把原数组变成新数组。啥意思呢?让我们看下代码
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第12张图片
还有两个方法:flatten和ravel,是把数组变成一维

数组叠加操作:
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第13张图片
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第14张图片
深拷贝和浅拷贝的一张图帮助理解:
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第15张图片
(5)csv文件的操作
np.savetxt和np.loadtxt一般用来操作csv文件,可以设置header,但是不能存储三维以上的数组
np.save和np.load一般用来存储非文本类型的文件,可以不设置header,但是可以存储三维以上的数组
如果想专门操作CSV文件,还有另一个模块叫csv,这个模块是python内置的,不需要安装。
那么如何使用python内置csv模块读取csv文件呢?

  import csv

with open('stock.csv','r') as fp:
#reader是一个迭代器
    reader = csv.reader(fp)
    titles = next(reader)  #这里的next是指把标题去掉,从第一行数据开始读取
    for x in reader:
        print(x)

另一种方式:
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第16张图片
那么如何使用python内置csv模块写入csv文件呢?
其中乱码使用encoding=‘utf-8’来解决,空行使用newline=’ '来解决,因为默认是/n
数据分析常用的库(更新中):Numpy\Pandas\Matplotlib_第17张图片

二、数据分析工具——Pandas

(1)什么是pandas?
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。

1.一个强大的分析和操作大型结构化数据集所需的工具集
2.基础是NumPy,提供了高性能矩阵的运算
3.提供了大量能够快速便捷地处理数据的函数和方法
4.应用于数据挖掘,数据分析
5.提供数据清洗功能

啊啊

你可能感兴趣的:(笔记,数据分析,写论文,python,数据分析,numpy)