scrapy项目>代理>验证码问题

一,项目问题:

1、你写爬虫的时候都遇到过什么反爬虫措施,你最终是怎样解决的
    1,通过headers反爬虫:
                解决策略,伪造headers
    2,基于用户行为反爬虫:
                动态变化去爬取数据,模拟普通用户的行为, 使用IP代理池爬取或者降低抓取频率,或 通过动态更改代理ip来反爬虫
    3,基于动态页面的反爬虫:
                跟踪服务器发送的ajax请求,模拟ajax请求,selnium和phtamjs
                或使用selenium + phantomjs 进行抓取抓取动态数据,或者找到动态数据加载的json页面。

    4,验证码 :
                使用打码平台识别验证码

    5,数据加密:
                对部分数据进行加密的,可以使用selenium进行截图,
                使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理,

2.你写爬虫的时候 使用的什么框架 选择这个框架的原因是什么?
scrapy
    优势:
        可以实现高并发的爬取数据, 注意使用代理;
        提供了一个爬虫任务管理界面, 可以实现爬虫的停止,启动,调试,支持定时爬取任务;
        代码简洁

    劣势:
        1.可扩展性不强。
        2.整体上来说: 
  

你可能感兴趣的:(python,爬虫,开发语言)