爬虫淘宝数据案例,虽说没有一个网站可以限制爬虫的入侵,但能写一个好的爬虫也是非常头疼

一.scrapy文档
https://www.osgeo.cn/scrapy/intro/tutorial.html
1.pip install pipenv(安装虚拟环境pipenv)
2.pip install Scrapy (安装Scrapy爬虫框架)
3.scrapy startproject ArticleSpider(使用scrapy创建一个工程ArticleSpider)
4.scrapy genspider cnblogs  news.cnblogs.com(创建一个爬虫cnblogs)
5.scrapy crawl cnblogs(启动爬虫,将命令封装成一个脚本,便于做项目调试,创建main.py文件)
6.pipenv install selenium (安装selenium库,作用模拟用户在网站的操作,如点击、输入等)
7.pipenv install undetected-chromedriver(安装undetected-chromedriver库。作用调起chrome浏览器,防止网站识别为selenium的操作)
8.pipenv install requests(安装requests,网络请求)
9.pipenv install pillow(安装pillow,图像处理)
10.pipenv install mysqlclient(安装mysqlclient,mysql操作)
11.pipenv install opencv-python(安装opencv图像处理)
12.pipenv install numpy(安装numpy,机器学习算法库)
13.pipenv install redis(安装redis)
14.pipenv install fake-useragent(安装fake-useragent,user-agent库)
二.基础技术要点
1.使用selenium,使用undetected-chromedriver
2.获取通过js加载的数据,包括js加载的html元素
3.pipelines.py的使用,处理itmes中数据
①图片的下载,继承ImagesPipeline类,重写ImagesPipeline的方法
②自定义数据本地保存。scrapy自带的exporters本地数据保存
③数据异步存储到mysql数据库
4.settings.py配置文件
三.网站模拟登录和滑动验证识别,模拟登录拿到cookie解决方案,加大模拟登录的难度:1.识别出chromedriver。2.加登录验证
1.undetected-chromedriver驱动最新版的浏览器,selenium操作登录获取cookie
①selenium获取html元素
2.此处记得修改scrapy的源码 selenium\webdriver\common\actions\pointer_input.py中将DEFAULT_MOVE_DURATION改为50,滑动速度
3.使用opencv识别验证
4.使用第三方机器学习方法识别验证(百度EasyDL的“物体检测”:https://console.bce.baidu.com/easydl/model/objdct/models)
①如何发布物体检测API:https://cloud.baidu.com/doc/EASYDL/s/3k38n3ej4
②EasyDL版控制台
③物体检测API调用文档:https://cloud.baidu.com/doc/EASYDL/s/Yk38n3erc
④获取 Access_token:https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjhhu
5.redis存储cookie
四.Scrapy突破反爬虫的限制
1.突破反爬限制一:(不限制IP访问频率时是异步请求)
①.User-agen模拟,随机更换User-agen
②.限制IP访问的随机频率
③.IP代理池,89免费代理:https://www.89ip.cn/
④.登录校验码,获取cookie
2.突破反爬限制二:(只能同步操作请求)
①.通过selenium和phantomjs完全模拟浏览器操作,获取js网站动态数据
五.杂项
①.各种验证码的识别
②.增量抓取
③.elasticsearch搜索引擎的使用
④.django搭建搜索网站

⑤.scrapyd部署scrapy爬虫


爬取淘宝案例

爬虫淘宝数据案例,虽说没有一个网站可以限制爬虫的入侵,但能写一个好的爬虫也是非常头疼_第1张图片
爬虫淘宝数据案例,虽说没有一个网站可以限制爬虫的入侵,但能写一个好的爬虫也是非常头疼_第2张图片爬虫淘宝数据案例,虽说没有一个网站可以限制爬虫的入侵,但能写一个好的爬虫也是非常头疼_第3张图片

你可能感兴趣的:(scrapy架构完美爬虫项目,爬虫,scrapy,http,网络协议,flask)