Spider学习笔记(六):爬虫部署

在云服务创建一个虚拟环境

```python
virtualenv envname

source 进入虚拟环境

安装scrapyd  pip install scrapyd

安装scrapy  pip install scrapy

安装scrapy  pip install requests

启动命令 scrapyd 

需要改一下配置
find -name default_scrapyd.conf 查询文件位置

./lib/python3.5/site-packages/scrapyd/default_scrapyd.conf
一般都是这个路径

\Lib\site-packages\scrapyd中的default_scrapyd.conf:
将bind_address = 127.0.0.1改为bind_address = 0.0.0.0

运行scrapyd  不能关闭程序  注意~~~

将工程打包

安装pip install scrapyd-client 打包工具

cd 到项目工程目录下 执行 scrapyd-deploy  

出现 default 表示成功

进入scrapy.cfg文件

将url的路由地址改成ip地址  也可以给deploy加上一个名字 :p1

保持退出  执行 scrapyd-deploy -l

执行打包  scrapy list

如果给爬虫取名了 需要执行一下  scrapyd-deploy 取的名字 -p 项目名

出现 "status": "ok"  就表示打包成功了

    
执行下面这条语句
curl http://localhost:6800/schedule.json -d project=项目名 -d spider=爬虫名

        
停止爬虫    
curl http://localhost:6800/cancel.json  -d project=项目名称 -d job=运行ID

删除scrapy项目
curl http://localhost:6800/delproject.json-d project=scrapy项目名称
```

分布式爬虫

```python
pip install gerapy

安装好之后 执行gerapy可以获得提示
初始化gerapy
gerapy init

会在当前目录下生成一个gerapy的文件夹

生产迁移之后  gerapy migrate

cd进入 将爬虫项目放到改目录下

运行
gerapy runserver 0.0.0.0:8000
```

你可能感兴趣的:(Spider)