龟速学爬虫笔记②

这一篇笔记主要介绍的是爬虫的原理。

网络爬虫(Web Spider),是一个抓取网页的程序。从技术层面来说,它通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。当通过客户端发出任务需求命令时,爬虫将通过互联网到达终端服务器,从网站某一个页面开始,读取网页的内容,从那里获得网页的源代码,在源代码中提取任务所需的信息,同将将获得的有用信息送回客户端存储,再返回终端服务器那获取网页源代码……循环往复,直到把这个网站所有的网页都抓取完为止。

爬虫会做这两件事:

1.模拟计算机对服务器发起Request请求;

2.接收服务器端的Response内容并解析、提取所需的信息。

龟速学爬虫笔记②_第1张图片

爬虫的流程可以被概括为:

  1. 获取网页源代码;

  1. 提取信息:获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。首先,最通用的方法便是采用正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库,如 Beautiful Soup、pyquery、lxml 等。使用这些库,我们可以高效快速地从中提取网页信息,如节点的属性、文本值等。

  1. 保存数据:一般会将提取到的数据保存到某处以便后续使用。保存的方式是多样的,可以是txt或json等,也可以是数据库或远程服务器等等。

你可能感兴趣的:(网络安全,爬虫,python,网络安全,大数据)