Scrapy 框架入门

1. 安装配置

  1. 下载对应版本的tisted.whl 文件到本地https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
  2. pip install Twisted-19.2.1-cp36-cp36m-win_amd64.whl 本地编译安装twisted
  3. 安装框架 pip install scrapy
  4. 可能还需要安装 pip install pypiwin32

2. 入門程序

  1. 命令行下,创建scrapy项目 D:>scrapy startproject DouBan
  2. 打开pycharm 打开项目,在命令行下输入
    D:\DouBan>scrapy genspider douban_movie www.movie.douban.com
    会在spiders目录下自动生成 douban_movie.py
  3. 修改setting.py 里面有关headers、user-agent配置、robot =false
  4. 在工程目录下创建begin.py ,启动项目时,就run这个文件
from scrapy import cmdline
# 使用cmd命令行 执行 spiders/douban_movie.py
cmdline.execute('scrapy crawl douban_movie'.split())
  1. 在douban_movie.py中 编写解析代码
# -*- coding: utf-8 -*-
import scrapy
from DouBan.items import DoubanItem

class DoubanMovieSpider(scrapy.Spider):
    name = 'douban_movie'
    allowed_domains = ['www.movie.douban.com']
    start_urls = ['https://movie.douban.com/subject/26100958/comments?sort=new_score&status=P']

    # parse方法是框架内置的,start_urls 中的请求完成后
    # 返回的response会传给parse方法
    # 我们在parse方法中,解析网页源代码
    # response 就是 start_urls 的网页源代码
    def parse(self, response):
        item = DoubanItem()
        comment = response.xpath('//span[@class="short"]/text()').extract()
        print(comment)

你可能感兴趣的:(Scrapy 框架入门)