python学习 三 04 图片爬虫工程-组织框架

Python安装

python学习 一 python语法,及变量类型

python学习 二 爬一个图片网站上

python学习 二 02 爬一个图片网站,获得主链接网址,并保存

python学习 二 03 爬一个图片网站-获得所有分页网址

python学习 二 04 爬一个图片网站-解析文件,获得所有图片链接

python学习 二 05 爬一个图片网站-下载图片链接

python学习 二 06 爬一个图片网站-多线程方式下载

python学习 三 01 再爬一个网站,几行代码,搞定分类类别

python学习 三 02 再爬一个网站,获得所有分页

python学习 三 03 再爬一个网站,根据分页,下载图片

本图片爬虫工程,组织框架

初次使用python,没什么组织,只是开发过程中的逻辑梳理下

python学习 三 04 图片爬虫工程-组织框架_第1张图片
python学习 三 04 图片爬虫工程-组织框架_第2张图片

一个主程序,用于分析网站,根据网站图片分类,创建本地类别,获得所有分页,最后下载所需图片。

Common.py 常用功能

Down.py 下载功能

MyThread.py 多线程,与下载结合,实现多线程下载

Parse.py 解析

大体逻辑上,是按这个组织的,当然一开始是写在一个文件中的,不过发现那样太乱,不利于重复利用,于是就慢慢的分离出这几个文件。

现在,脉络是这样,不过耦合度还是挺多的,先不管了,有机会再研究的话,再进行完善。

工程发布到github,有一个网站是日本的,可以尽情爬取,另一个网站网址省去了,避免多人爬取,直接把人家的网站挂掉,就像有人如果爬我的网站,差点把我的网站弄瘫痪了,我也是不愿意的:》

至此,我的爬虫项目已经完成了爬虫任务,暂时不再研究了,下一步打算做数据挖掘项目了

Github:

https://github.com/gudianxiaoshuo/myPython

对您有所启发的话,用支付宝扫下红包奥。。。


python学习 三 04 图片爬虫工程-组织框架_第3张图片

你可能感兴趣的:(python学习 三 04 图片爬虫工程-组织框架)