分布式爬虫中的增量爬虫

增量式爬虫:检测网站数据更新的概况,然后更新出来的数据进行爬取
核心:去重
记录表:存放抓取过的数据标识 redis的set做数据更新表。

思路是在爬取的时候去redis中确认一下,url是否存在,如下:

li_list=response.xpath('./span[3]/ul/li')
for li in li_list
    detail-url="http://baidu.com"+li.xpath('/li/@href').extract_first()
    ex=self.conn.sadd('urls',detail-url)
    if ex==1:
       #ex代表返回成功了,有数据更新,没有重复
       yield scrapy Request(detail-url)
    else:
        print("没有更新数据")

你可能感兴趣的:(python,爬虫,python,开发语言)