解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫(期末重点题目)

第一章

网络爬虫又称网页蜘蛛或  网络机器人 )

网络爬虫能够按照一定的( 规则 ),自动请求万维网站并提取网络数据

爬虫是手动请求万维网网站且提取网页数据的程序。(×

爬虫爬取的是网站后台的数据。(×

通用爬虫用于将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。(

简答题:

简述通用爬虫和聚焦爬虫。

1.通用爬虫又称全网爬虫,主要用于将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。聚焦网络爬虫又称主题网络爬虫,用于选择性地爬取那些与预先定义好的主题相关的页面。

2.通用爬虫的爬行范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低。聚焦爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。

第二章

 robots.txt )文件是搜索引擎访问网站是要查看的第一个文件。

robots.txt文件没有实际的约束力。(

爬虫爬取网页的行为都很正当,不会受到网站的任何限制。(×

针对采用了防爬虫措施的网站,爬虫是无计可施的。(×

简答题

简述通用爬虫和聚焦爬虫爬取网页的流程。

通用爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。

请举出一些针对防爬虫的应对策略。

伪装User-agent、使用代理IP、降低访问频率、识别验证码

第三章

下列状态码中,表示客户端的请求有错误的是( C )。

A、200

B、304

C、403

D、500

下列请求报头中,可以记载用户信息实现模拟登录的是( B )。

A、User-Agent

B、Cookie

C、Connection

D、Host

客户端发送的请求消息由请求行、( 请求头部 )、空行以及请求数据4部分组成。

一旦服务器端出现错误,返回的状态码为403。(×

GET请求是指向指定资源提交数据进行处理请求,数据被包含在请求体中。(×

服务器可以根据请求报头中的Accept进行判断,以返回适当的文件格式给浏览器。(

简答题

简述浏览器加载网页的过程

  1. 浏览器通过DNS服务器查找域名对应的IP地址
  2. 向IP地址对应的Web服务器发送请求
  3. Web服务器响应请求,发回HTML页面
  4. 浏览器解析HTML内容,并显示出来

HTTP通信由哪些部分组成

客户端请求消息和服务器端响应消息

第四章

使用urlopen()方法发送请求后,服务器后返回一个( A )类型的对象。

A、HTTPResponse

B、ResponseHTTP

C、Response

D、ServiceResponse

下列方法中,用于对传递的URL进行编码和解码的是( D )

A、urldecode, urlencode

B、unquote, urlencode

C、urlencode, urldecode

D、urlencode, unquote

通过加入特定的( C ),可以将爬虫发出的请求伪装成浏览器。

A、Request

B、opener

C、Headers

D、User_Agent

你可能感兴趣的:(python,scrapy)