2018-11-03-3-scrapy新建项目,以及编写目标内容爬虫代码

1.scrapy安装与windows下的坑

windows下安装scrapy,会有部分代码不能正常安装,这个可以直接到下面这地址中,使用快捷键:Ctrl+F,然后输入相应的第三方库,点击下载相应的.whl文件,然后进行安装
网址:https://www.lfd.uci.edu/~gohlke/pythonlibs/

whl文件安装方法,网址中有坑,pip部分多数情况下是默认添加进环境变量中了,没必要讲那么多废话。
https://blog.csdn.net/weixin_41592575/article/details/78984585

切换到一个你想要存放爬虫项目的目录,比如F盘,scrapy startproject xiamiuser(scrapy startproject固定值,不用管,后面的xiamiuser为自取项目名,注意不要和接下去步骤2中的名字一样。不然会冲突)

2018-11-03-3-scrapy新建项目,以及编写目标内容爬虫代码_第1张图片
cmd命令.jpg

dos命令行中运行了scrapy startproject xiamiuser,会产生xiamiuser文件夹,进入该项目文件夹中,输入scrapy genspider xiami xiami.com
scrapy genspider为固定值,xiami为spiders文件夹下面,项目名字.py下(这里为spiders文件夹 -- xiami.py)xiami.py 中 name后面的值,后续启动爬虫项目,就是用这个名字。

2018-11-03-3-scrapy新建项目,以及编写目标内容爬虫代码_第2张图片
123.png
2018-11-03-3-scrapy新建项目,以及编写目标内容爬虫代码_第3张图片
项目结构图.jpg

进入项目所在文件,发现如下结构

.scrapy 这个文件夹不用管(没有启用缓存功能的话,这个文件夹不存在的),是启用了scrapy缓存,scrapy保存缓存的地方。
main.py 存的是dos命令,启用项目的。
scrapy.cfg:项目部署文件
xiamiuser/xiamiuser/Spider/: 该项目的python模块,之后可以在此加入代码
xiamiuser/spiders/items.py: 项目中的item文件。
xiamiuser/spiders/pipelines.py: 项目中的Pipelines文件。
xiamiuser/spiders/settings.py: 项目的配置文件。
xiamiuser/spiders/spiders/: 放置Spider代码的目录。

按上面这张图片分解,spiders→pycache→xiami.py为实际爬虫工作代码的地方。

打开*:\xiamiuser\xiamiuser\spiders中的xiami.py

默认生成

# -*- coding: utf-8 -*-
import scrapy


class XiamiSpider(scrapy.Spider):
    name = 'xiami'
    allowed_domains = ['xiami.com']
    start_urls = ['https://www.xiami.com/'] 

    def parse(self, response):
        pass

修改成以下内容

# -*- coding: utf-8 -*-
import scrapy


class XiamiSpider(scrapy.Spider):
    name = 'xiami'
    allowed_domains = ['xiami.com']
    start_urls = ['https://www.xiami.com/'] 
#这里用注释介绍一下,start_urls 为初始网址,我们以https://www.xiami.com/song/bCndp0h47b3f
#为当前爬虫的目标url,

    def parse(self, response):
        print (response.text)#其实就加了这个东西,其他那些注释没效果。
        #pass

在有scrapy.cfg文件的相同目录下,新建一个main.py(以后启动项目就直接启动这个就好了)
里面输入,保存,然后直接运行

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","xiami"])

如果代码能正常运行,且是用python的IDE运行,那么会出来一个调试窗口,陆续显示下面图片中一样的信息
2018-11-03-3-scrapy新建项目,以及编写目标内容爬虫代码_第4张图片
调试.jpg

蓝色为正确输出内容,红色为scrapy的调试内容。
然后scrapy 虾米网的爬虫教程,完结。

你可能感兴趣的:(2018-11-03-3-scrapy新建项目,以及编写目标内容爬虫代码)