网络爬虫根据尺寸分类

目标 规模 特点 技术要求
爬取网页 玩转网页 小规模 数量小,爬取速度不敏感 使用Requests库就可以满足需求
爬取网站 爬取系列网站 中规模 数据量较大,对爬取速度敏感,爬慢了,数据就可能更新了 可以使用Scrapy库来实现
爬取全网 大规模 一般用于搜索引擎,如百度、google、bing等,爬取速度很关键 都需要定制开发

网络爬虫引发的问题有三:

  1. 骚扰服务器,降低服务器的性能
  2. 可能会带来内容层面的法律风险,如爬取了某些文章来牟利。
  3. 可能会带来个人隐私泄漏的问题,因为爬虫可以发现很多隐密的链接

网站如果限制网络爬虫呢?

1.可以通过来源审查来限制爬虫:
 通过检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫。
2.发布公告:Robots协议
是否遵守,就要看写爬虫的人了。但是如果不遵守的话,可能会有法律风险。

你可能感兴趣的:(Python,robots)