1.scrapy安装与windows下的坑

windows下安装scrapy，会有部分代码不能正常安装，这个可以直接到下面这地址中，使用快捷键：Ctrl+F，然后输入相应的第三方库，点击下载相应的.whl文件，然后进行安装
网址：https://www.lfd.uci.edu/~gohlke/pythonlibs/

whl文件安装方法，网址中有坑，pip部分多数情况下是默认添加进环境变量中了，没必要讲那么多废话。
https://blog.csdn.net/weixin_41592575/article/details/78984585

切换到一个你想要存放爬虫项目的目录，比如F盘，scrapy startproject xiamiuser（scrapy startproject固定值，不用管，后面的xiamiuser为自取项目名，注意不要和接下去步骤2中的名字一样。不然会冲突）

2018-11-03-3-scrapy新建项目，以及编写目标内容爬虫代码_第1张图片

cmd命令.jpg

dos命令行中运行了scrapy startproject xiamiuser，会产生xiamiuser文件夹，进入该项目文件夹中，输入scrapy genspider xiami xiami.com
scrapy genspider为固定值，xiami为spiders文件夹下面，项目名字.py下（这里为spiders文件夹 -- xiami.py）xiami.py 中 name后面的值，后续启动爬虫项目，就是用这个名字。

2018-11-03-3-scrapy新建项目，以及编写目标内容爬虫代码_第2张图片

123.png

2018-11-03-3-scrapy新建项目，以及编写目标内容爬虫代码_第3张图片

项目结构图.jpg

进入项目所在文件，发现如下结构

.scrapy 这个文件夹不用管（没有启用缓存功能的话，这个文件夹不存在的），是启用了scrapy缓存，scrapy保存缓存的地方。
main.py 存的是dos命令，启用项目的。
scrapy.cfg:项目部署文件
xiamiuser/xiamiuser/Spider/: 该项目的python模块，之后可以在此加入代码
xiamiuser/spiders/items.py: 项目中的item文件。
xiamiuser/spiders/pipelines.py: 项目中的Pipelines文件。
xiamiuser/spiders/settings.py: 项目的配置文件。
xiamiuser/spiders/spiders/: 放置Spider代码的目录。

按上面这张图片分解，spiders→pycache→xiami.py为实际爬虫工作代码的地方。

打开*：\xiamiuser\xiamiuser\spiders中的xiami.py

默认生成

# -*- coding: utf-8 -*-
import scrapy


class XiamiSpider(scrapy.Spider):
    name = 'xiami'
    allowed_domains = ['xiami.com']
    start_urls = ['https://www.xiami.com/'] 

    def parse(self, response):
        pass

修改成以下内容

# -*- coding: utf-8 -*-
import scrapy


class XiamiSpider(scrapy.Spider):
    name = 'xiami'
    allowed_domains = ['xiami.com']
    start_urls = ['https://www.xiami.com/'] 
#这里用注释介绍一下，start_urls 为初始网址，我们以https://www.xiami.com/song/bCndp0h47b3f
#为当前爬虫的目标url，

    def parse(self, response):
        print (response.text)#其实就加了这个东西，其他那些注释没效果。
        #pass

在有scrapy.cfg文件的相同目录下，新建一个main.py（以后启动项目就直接启动这个就好了）
里面输入，保存，然后直接运行

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","xiami"])

如果代码能正常运行，且是用python的IDE运行，那么会出来一个调试窗口，陆续显示下面图片中一样的信息

2018-11-03-3-scrapy新建项目，以及编写目标内容爬虫代码_第4张图片

调试.jpg

蓝色为正确输出内容，红色为scrapy的调试内容。
然后scrapy 虾米网的爬虫教程，完结。

2018-11-03-3-scrapy新建项目，以及编写目标内容爬虫代码

1.scrapy安装与windows下的坑

打开*：\xiamiuser\xiamiuser\spiders中的xiami.py

你可能感兴趣的:(2018-11-03-3-scrapy新建项目，以及编写目标内容爬虫代码)