【实战试听课】第三节:爬取真实网页

今天我们来爬取真实的网页。如果你有过海外游的经历,一定会知道这个网站,叫做:Tripadvisor。

【实战试听课】第三节:爬取真实网页_第1张图片

具体的运作过程是这样的:

【实战试听课】第三节:爬取真实网页_第2张图片

在你打开一个网页的时候,你的电脑就向服务器发起了一个 Request 请求,服务器为了回应你,给你返回一个 Response 请求。

【实战试听课】第三节:爬取真实网页_第3张图片

那么,为了用程序模拟人类向服务器发起请求,就要用程序发起 Request,在 HTTP 1.1 协议中,有8种方法,其中最常用的是 get 方法。

【实战试听课】第三节:爬取真实网页_第4张图片

我们请求了之后,服务器会返回给我们一个状态码,如果成功了就是200,如果失败了则是404等等。

【实战试听课】第三节:爬取真实网页_第5张图片


【实战试听课】第三节:爬取真实网页_第6张图片

在网页中定位元素位置,最关键的点是:找唯一特征。

【实战试听课】第三节:爬取真实网页_第7张图片

在课程案例里面详细讲解了爬取连续多页的方法,以及模拟登录的方法。

【实战试听课】第三节:爬取真实网页_第8张图片

Tripadvisor 的图片有着反爬取策略,为了解决这个问题,介绍一个小技巧。具体是什么,可以看视频。


3、如何爬取网页【Python零基础爬虫实战】

在亲身实践之后才能真正学会。所以,每节课都有一道配套的实战练习题,这节课的练习作业是:爬取小猪短租的房源信息。

【实战试听课】第三节:爬取真实网页_第9张图片


上面的内容来自网易云课堂畅销课程 Python实战课程:四周实现爬虫系统

【实战试听课】第三节:爬取真实网页_第10张图片

加入课程后,可以看到完整四周课程,获赠零基础预习教程魔力手册,并得到班级老师的辅导与答疑。

欢迎加入预备班 QQ 群和大家讨论 Python 课程问题,参加每周的老学员分享,QQ 群号是:454652648,加群回复:实战计划

【实战试听课】第三节:爬取真实网页_第11张图片

你可能感兴趣的:(【实战试听课】第三节:爬取真实网页)