Python爬虫实例(1)

1.网络爬虫爬什么?

从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,直到把这个网站所有的网页都抓取完为止。
其实就是抓取网页。
比如我们想找Python教程,以runoob.com为例
想抓取Python3的所有教程
URL为:https://www.runoob.com/python3/python3-tutorial.html

2.利用urllib抓取网页内容

Python爬虫实例(1)_第1张图片
image.png

返回200说明连接成功

但是,有一些站点不喜欢被程序(非人为访问)访问,浏览器确认自己身份是通过User-Agent头,我们可以模拟User-Agent头访问页面
获取User-Agent头信息如下图:


Python爬虫实例(1)_第2张图片
image.png

代码如下:


Python爬虫实例(1)_第3张图片
image.png

连接成功,我们再打印网页内容看一下:


Python爬虫实例(1)_第4张图片
image.png

这样我们成功抓取了网页的内容。

你可能感兴趣的:(Python爬虫实例(1))