新浪微博爬虫(Scrapy、Redis)环境搭建

Git源码地址

需要以下环境配置:
1、MongoDB安装好 能启动即可,不需要配置。
2、Python需要安装好scrapy(64位的Python尽量使用64位的依赖模块)
另外用到的python模块还有:pymongo、json、base64、requests。
3、将你用来登录的微博账号和密码加入到 cookies.py 文件中,里面已经有两个账号作为格式参考了。
4、另外一些scrapy的设置(如间隔时间、日志级别、Request线程数等)可自行在setting里面调。

MongoDB的环境配置

见我的前一篇文章MongoDB环境配置

python需要的其他模块

pip下载安装的包,导致版本不对应,出现错误,需要手动下载scrapy,以及它需要依赖的包,记得选择对应的python版本。
参考文章
pywin32
zope.interface
pyOpenSSL
twisted
lxml
最后安装,scrapy,在此之前先安装easytool。
下载scrapy(或者在百度搜索scrapy,在github上面下载源码),下载完后,解压出来,运行cmd,cd到该解压目录下,在cmd中输入
easy_install Scrapy

你可能感兴趣的:(数据挖掘)