python获取网络接口中的数据_从零开始学Python - 第030课:用Python获取网络数据

对于Python语言来说,一个较为擅长的领域就是网络数据采集,实现网络数据采集的程序通常称之为网络爬虫或蜘蛛程序。即便是在大数据时代,数据对于中小企业来说仍然是硬伤和短板,有些数据需要通过开放或付费的数据接口来获得,其他的行业数据则必须要通过网络数据采集的方式来获得。不管使用哪种方式获取网络数据资源,Python语言都是非常好的选择,因为Python的标准库和三方库都对获取网络数据提供了良好的支持。

HTTP和requests库

要使用Python获取网络数据,我们可以先安装一个名为requests 的三方库,这个库我们在第24课中已经使用过了。按照官方网站的解释,requests是基于Python标准库进行了封装,简化了通过HTTP访问网络资源的操作。说到HTTP相信大家不会陌生,通常我们打开浏览器浏览网页时,我们就是使用了HTTP或HTTPS。HTTP是一个请求响应式的协议,当我们在浏览器中输入正确的URL(通常也称为网址)并按下回车(Enter),我们就向网络上的Web服务器发送了一个HTTP请求,服务器在收到请求后会给我们一个HTTP响应,服务器给浏览器的数据就包含在这个响应中。我们可以使用浏览器提供的“开发者工具”或是“抓包工具”(如:Fiddler、Charles等)来了解HTTP请求和响应到底是什么样子的,如下图所示。

通过requests库,我们可以让程序向浏览器一样向Web服务器发起请求,并接收到服务器返回的响应,从响应中我们就可以提取出我们想要的数据。下面通过两个例子来演示如何获取网页代码和网络资源(如:图片),浏览器呈现给我们的网页是用HTML编写的,浏览器相当于是HTML的解释器环境,我们看到

你可能感兴趣的:(python获取网络接口中的数据_从零开始学Python - 第030课:用Python获取网络数据)