使用python scrapy插件抓取数据(抓取芸汐传小说)

看了芸汐传漫画觉得可以追追,所以就看了小说,奈何爱奇艺阅读需要大概200元这本书,所以就想自己抓取下,又可以学习技术又省钱了。

先给出项目地址:https://github.com/waterzend/scrapyNovel-.git

用到了那些技术:

scrapy1.5.1

xpath

入库mysql

python-docx

正则表达式

环境准备:

D:\Python36\Scripts\pip.exe install M2Crypto  -ihttps://pypi.tuna.tsinghua.edu.cn/simple

环境 python2.7.5

安装pywin32

https://nchc.dl.sourceforge.net/project/pywin32/pywin32/Build%20220/pywin32-220.win-amd64-py2.7.exe

插件scrapy安装

pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple

安装vcForPython27

https://www.microsoft.com/en-us/download/details.aspx?id=44266

安装mysql-python for windows

http://www.codegood.com/downloads

创建一个新的项目

D:\GitHub\scrapy>scrapy startproject yunxizhuan

项目结构如下:

数据库表:

CREATE TABLE `content` ( `id` varchar(50) NOT NULL, `title` varchar(255) DEFAULT NULL, `content` text ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

抓取代码如下:

入库代码如下:

运行 D:\GitHub\scrapy\yunxizhuan\yunxizhuan\spiders>scrapy startproject yunxizhuan


结果:

生成word:

你可能感兴趣的:(使用python scrapy插件抓取数据(抓取芸汐传小说))