Python网络爬虫笔记(四)——requests与BeautifulSoup

一、requests

request是请求库,用来获取页面信息。

首先记得导入库啊,这个是第三方库,py没有自带,没有安装的小伙伴可以移步我上一篇安装第三方库教程

import requests

介绍几个常用的函数
1> 请求命令

import requests

url = 'https://www.163.com'
resp = requests.get(url)

get用途其实跟构造函数差不多,它的参数不少,我们这里主要用到url和headers两个。
url:学过计网的自然懂,没学过的……嗯简单来说就是要爬取的网站。。。地址吧?(不准确)它其实就是浏览器地址框里那个。
就是这个
headers:请求头,有时候网站会有反爬,加这个可以爬的更真实。这个放到后面讲。

2> 显示状态码

import requests

url = 'https://www.163.com'
resp = requests.get(url)
print(resp.status_code)
# >>200

爬取的状态。如果是200就代表成功了。

3> 显示文本格式的信息

import requests

url = 'https://www.163.com'
resp = requests.get(url)
print(resp.status_code)
print

你可能感兴趣的:(Python,爬虫)