解析Python网络爬虫:核心技术、Scrapy框架、分布式爬虫(选择题、填空题、判断题)(第1、2、3、4、5、6、7、10、11章)

第一章

【填空题】

网络爬虫又称网页蜘蛛或 ( 网络机器人

网络爬虫能够按照一定的(  规则  ),自动请求万维网站并提取网络数据。

根据使用场景的不同,网络爬虫可分为( 通用爬虫 )和( 聚焦爬虫 )两种。

爬虫可以爬取互联网上( 公开 )且可以访问到的网页信息。

【判断题】

爬虫是手动请求万维网网站且提取网页数据的程序。 ×

爬虫爬取的是网站后台的数据。×

通用爬虫用于将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

聚焦爬虫是“面向特定主题需求”的一种网络爬虫程序。

通用爬虫可以选择性地爬取与预先定义好的主题相关的页面。×

第二章

【填空题】

(  搜索引擎 )是通用爬虫最重要的应用领域。

robots.txt )文件是搜索引擎访问网站是要查看的第一个文件。

网站提供了(  Sitemap.xml )文件,可以方便网站管理员通知爬虫遍历和更新网站的内容。

User-Agent表示( 用户代理 ),用于描述发出HTTP请求的的终端信息。

为防止对方从访问量上认出爬虫的身份,可以(  降低 )访问网站的频率。

【判断题】

robots.txt文件一定要放置在一个站点的根目录下。

robots.txt文件中至少要有一条User-Agent记录。

robots.txt文件没有实际的约束力。

爬虫爬取网页的行为都很正当,不会受到网站的任何限制。×

针对采用了防爬虫措施的网站,爬虫是无计可施的。×

第三章

【单选题】

下列选项中,不属于请求报头的是( D )。

A、User-Agent

B、Cookie

C、Referer

D、Content-Type

你可能感兴趣的:(python,爬虫,scrapy)