如何进行Python数据分析?正确的“入门之路”三部曲

前言

Python是一种面向对象、直译式计算机程序设计语言,由于他简单、易学、免费开源、可移植性、可扩展性等特点,Python又被称之为胶水语言。下图为主要程序语言近年来的流行趋势,Python受欢迎程度扶摇直上。

由于Python拥有非常丰富的库,使其在数据分析领域也有广泛的应用。

一、为什么要用Python做数据分析?在我看来,大概有3大理由。

广度: 各行各业都有自己的商业场景,每一个行业都需要使用数据来辅助决策。面对现在人人谈大数据的情境,数据分析是一个你不得不会的技能。

精度 : Python是一门编程语言。也许从前的你完全依靠excel的默认设置生成图表,从不思考为什么做一张数据图,而使用编程工具的你必须从图表长宽开始思考每一步成形的理由,从而更精地理解数据。

高效 : 传统的数据工作涵盖大量的重复不动脑操作,比如把日表合成周表,比如批量删除某个字段,比如批量删除空值。这些工作通过鼠标点击软件没有办法编成工作流,但却可以通过python程序编写自动化,省去大量时间。

基础库总结

这里是对你会经常接触的重要的库的简要总结:

NumPy: 拥有大量的科学计算的核心功能。由于它的内部运算是通过C语言实现的,所以比用Python写成的同样的函数,它的速度会快许多。但它并不是最用户友好的包。

SciPy: 跟NumPy非常相似,但是有更多的方式来从分布中取样,计算检验统计量,等等。

MatPlotLib: 主要的画图框架。不太讨喜,但却是必备的包。

Pandas: 基本上是对NumPy/SciPy进行轻量的包装,使它们更用户友好一些。对于和表格数据交互非常理想,Pandas中把表格数据称为数据框(DataFrame)。对画图功能也有一些包装,使得无需使用MPL(Meta-Programming Library,元编程库)就可以快速实现画图。我使用Pandas而非其他的工具来操作数据。

机器学习和计算机视觉

Crab:灵活、快速的推荐引擎

gensim:人性化的话题建模库

hebel:GPU 加速的深度学习库

NuPIC:智能计算 Numenta 平台

pattern:Python 网络挖掘模块

PyBrain:另一个 Python 机器学习库

Pylearn2:一个基于 Theano 的机器学习库

python-recsys:一个用来实现推荐系统的 Pytho

你可能感兴趣的:(Python,python,数据分析,开发语言,职场和发展,Python教程)