数据分析包的比较

数据分析包的比较:RMatlabSciPyExcelSASSPSSStata

名称

优点

缺点

是否开源

典型用户

R

代码库支持,可视化

深入的学习曲线

金融,统计

Matlab

优秀的矩阵计算,可视化

费用贵,不完全支持统计

工程

SciPy

Python

不成熟

工程

Excel

容易,可视化操作

大数据集

商业

SAS

大数据集

贵,过时的编程语言

商业,政府

Stata

简单的统计分析

科学

SPSS

Stata很像,但是更加贵,而且差

 

1从表上可以看出主要是两大阵营:更加面向编程的解决方案,Rmatlabpython;面向分析的解决方案,ExcelSASStataSPSS

2python“不成熟”:matplotlibnumpyscipy都是独立的代码包,它们往往不在一起。

3matlab语言是很弱的语言

4matlab是最好的开发新的数学算法的工具,在机器学习方面非常流行。

5SPSSStata是一个类型的

6SPSSStata主要适合科学计算

7SAS主要是一些比较早的从事数据相关工作的群体使用

8R的内存限制可以通过mysql来处理,或者运用机器集群来运算处理

9SAS在处理图形方面的能力有限

10R具有很强的可视化能力

11Excel拥有庞大的用户群


PS:

What programming languages you used for data mining / data analysis in the past 12 months? [570 voters]

R (257)  45%
SQL (184)  32%
Python (140)  25%
Java (139)  24%
SAS (121)  21%
MATLAB (83)  15%
C/C++ (73)  13%
Unix shell/awk/gawk/sed (59)  10%
Perl (45)  7.9%
Hadoop/Pig/Hive (35)  6.1%
Lisp (4)  0.7%
Other (70)  12.0%
None (7)  1.2%

Notes
On average, data miners use 2.1 languages. Among the top 5 languages, only about 15-25% used that language alone.

The breakdown by region is:

  • US/Canada, 42%
  • Europe, 30%
  • Asia, 16%
  • Latin America, 4.9%
  • AU/NZ, 2.8%
  • Africa/MidEast, 3.0%


你可能感兴趣的:(数据分析)