基于python实现的指定POI微博签到数据爬取

爬取微博签到数据有多种方式,本文介绍根据POIID爬取指定地点的历史微博签到数据,该方法基于微博签到地点的详情页,通过lxml库进行解析。

1. 爬取接口

微博签到地点详情页的访问地址是https://weibo.com/p/100101{ POIID},其中POIID依具体签到地点而定。通过抓包查看,该页面实际调用的接口为:

https://weibo.com/p/aj/v6/mblog/mbloglist?domain=100101&feed_sort=filter%3Dcheckin|2%2C3&feed_filter=filter%3Dcheckin|2%2C3&pre_page={pre_page}&page={page}&pagebar={pagebar}&pl_name=Pl_Core_MixedFeed__4&id=100101{poiid}&feed_type=1

该接口返回的json格式结果如下:

{
    "code": "100000",
    "msg": "",
    "data": "..."
}

其中data字段为实际有效的内容,为HTML格式,具体如下(为方便展示已隐去部分内容):

...
昨儿在大鹏的农庄里拔了点儿茄子胡萝卜和地瓜 今儿提着一半儿去老爷子那儿陪

你可能感兴趣的:(微博数据爬取,python,开发语言,爬虫,新浪微博)