爬虫案例:ajax异步加载,爬取豆瓣电影排行榜

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
#导入相应的库
base_url ='https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start={}&limit=20'
#构造电影地址url,发现该网站url构造结构
i=0
while True:
#加入while语句循环构造url
    headers ={
    'User-Agent':UserAgent().chrome
    #加入请求头

}

    url =base_url.format(i*20)
    #构造url
    request =Request(url,headers=headers)
    #访问构造好的url
    response =urlopen(request)
    #返回响应值
    info =response.read().decode()
    #定义函数info,获取响应信息
    print(info)
    #打印内容
    if info =="" or info is None:
     #用if语句加入判断,打印内容为空时
      break
      #程序结束
    i+=1
    #url中i加1

爬虫案例:ajax异步加载,爬取豆瓣电影排行榜_第1张图片

发现没,这不是差不多嘛?得了,是不是得到规律了,这个就是咱们的加载多页后得到的第一信息,我这个没接到第一个Request URL:https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20,再比较一下?top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20,

这个是第一个url,所以可以定义这个网站的异步加载url了,再用format方法构造url就行了。

你可能感兴趣的:(Python的爬虫使用案例,Python的常见库使用,一只网络上的虫(爬虫实例))