Python机器学习及NLP库

机器学习方面:

Scikit-Learn 可用于分类、特征选择、特征提取和聚集。还拥有自然语言处理特征提取的能力、词袋、tf-idf算法、预处理等。

Matplotlib 可以用于快速可视化。

Statsmodels 主要用于预测性和探索性分析。可以拟合线性模型,进行统计分析或预测性建模。

PyMC 做贝叶斯曲线的工具。

Shogun 主要用于支持向量机(SVM)

Gensim 用于主题建模,LDA及其变体等方面,支持自然语言处理

Orange 拥有图形界面的的库,能力比较平均。


NLP(自然语言处理)方面:

NLTK 《Python自然语言处理》一书的默认工具,提供WordNet这种方便处理词汇资源的接口,可用在分类、分词、词干提取、标注等任务。

Jieba 可用于分词、词性标注、特征词提取等方面。

Gensim 用于对大型语料库进行主题建模、文件索引、相似度检索等。

你可能感兴趣的:(编程心得,Python,机器学习)