爬取微博签到数据有多种方式,本文介绍根据POIID爬取指定地点的历史微博签到数据,该方法基于微博签到地点的详情页,通过lxml库进行解析。
微博签到地点详情页的访问地址是https://weibo.com/p/100101{ POIID},其中POIID依具体签到地点而定。通过抓包查看,该页面实际调用的接口为:
https://weibo.com/p/aj/v6/mblog/mbloglist?domain=100101&feed_sort=filter%3Dcheckin|2%2C3&feed_filter=filter%3Dcheckin|2%2C3&pre_page={pre_page}&page={page}&pagebar={pagebar}&pl_name=Pl_Core_MixedFeed__4&id=100101{poiid}&feed_type=1
该接口返回的json格式结果如下:
{
"code": "100000",
"msg": "",
"data": "..."
}
其中data字段为实际有效的内容,为HTML格式,具体如下(为方便展示已隐去部分内容):
...
昨儿在大鹏的农庄里拔了点儿茄子胡萝卜和地瓜 今儿提着一半儿去老爷子那儿陪