爬虫分类,爬虫协议以及简单操作获得网页数据

1.爬虫分类

爬虫分为通用爬虫和聚焦爬虫。

通用爬虫很好理解,就是大家日常使用的搜索引擎,它们通过用户输入的关键词来进行检索,返回的是网站的URL链接。这一类爬虫遵守爬虫协议,只是根据用户需求对网站进行检索。

聚焦爬虫就是我们接下来要搞的东西。不去遵守爬虫协议,对指定网站获取相应的数据。

2.爬虫协议

爬虫协议(Robots协议),全称是“网络爬虫排除标准”,各网站通过爬虫协议来告诉搜索引擎哪些数据可以爬,哪些数据不可爬。可爬的数据当然绝大部分是无用的,所以我们接下来的演示是不遵守爬虫协议的。

3.requests库

Python3中requests库打出的旗号是让HTTP服务人类,足矣证明该库是特别强大。所以我们使用这个库来获取网页数据。

4.简单操作获取网页数据

a.明确URL:搞明白你要爬哪个网站。这里笔者使用自己的个人博客网站进行演示。

爬虫分类,爬虫协议以及简单操作获得网页数据_第1张图片

b.安装requests库

点我查看上一篇文章

c.导入requests库,定义URL变量

image.png

d.使用requests的get方法,获取网页状态

爬虫分类,爬虫协议以及简单操作获得网页数据_第2张图片

200表示正常连接,常见的还有404NotFont等

e.添加.text方法,获取网页源代码

爬虫分类,爬虫协议以及简单操作获得网页数据_第3张图片

f.去网页打开审核源代码获取是否正确

爬虫分类,爬虫协议以及简单操作获得网页数据_第4张图片

5.通过以上步骤我们就完成了一个简单的网页源代码的获取。

 

你可能感兴趣的:(爬虫千万条,守法第一条)