Python爬虫实战(一):翻页爬取数据存入SqlServer_python爬虫翻页

        print(str(e))
         
    # 关闭游标,断开数据库
    cursor.close()
    db.close()
  
# 实现主要逻辑 
def run(self):
    
    for type_num in range(1,46):
        # 1.拼接网页获取每个类别的页数page
        url = self.baseurl % (1,type_num)
        html_str = self.parse_url(url)
        page = self.get_page_num(html_str) + 1 
        for i in range(1,page):
            url = self.baseurl % (i,type_num)
            x = 0
            while x<1:
                # 2.发送请求,获取相应
                html_str = self.parse_url(url)
                # 3.获取第一页中39个详情页地址
                content_list= self.get_content_list(html_str) 
                # 4.获取39个详情页信息
                information = self.get_information(content_list)
                # 5.入库
                self.insert_sqlserver(information)
                
                x += 1

if name == “__main__”:
trademarkSpider = TrademarkSpider()
trademarkSpider.run()


![在这里插入图片描述](https://img-blog.csdnimg.cn/15ea5111a0b8498da972138805b2c12b.png)


**先讲讲我的整体思路再逐步解释**:


* 第一步:构造主页的URL地址
* 第二步:发送请求,获取响应
* 第三步:获取第一页中39个详情页地址
* 第四步:获取39个详情页信息
* 第五步:存入SqlServer数据库
* 第六步:实现主页翻页(1-91页)


### 1. 设置翻页


我们先手动翻页,1-3页:



http://www.mp.cc/search/1?category=25
http://www.mp.cc/search/2?category=25
http://www.mp.cc/search/3?category=25


可以看出来,网址只有中间一个数据在逐步递增,所以就可以构造主页地址,代码如下:



for i in range(1,92):
# 1.构造主页地址
url = self.baseurl % i


这里做了字符串拼接,baseurl在 `__init__(self)`中:



self.baseurl = “http://www.mp.cc/search/%s?category=25” #通过%s传数字进入


### 2. 获取代理ip


1、打开巨量IP官网:[巨量IP官网](https://bbs.csdn.net/topics/618317507)


2、输入账号信息进行注册:


![](https://img-blog.csdnimg.cn/img_convert/1a78180a99d94b32a93513879ce32c84.png)


3、这里需要进行实名认证,如果不会的可以看:[个人注册实名教程](https://bbs.csdn.net/topics/618317507):


![](https://img-blog.csdnimg.cn/img_convert/e9df43c2dbf8c4d990e07924851b6591.png)


4、进入会员中心,点击领取今日免费IP:


![](https://img-blog.csdnimg.cn/img_convert/ebb66eac357f612cbcd152b8de290010.png)


5、详细步骤看官方的教程文档:[巨量HTTP—免费代理ip套餐领取教程](https://bbs.csdn.net/topics/618317507),领取后如下图:


![](https://img-blog.csdnimg.cn/img_convert/cfb95fed6a60576255b7baf28d359f95.png)


![](https://img-blog.csdnimg.cn/img_convert/8427e54f6ff911ccffcee3c127c922da.png)


6、点击产品管理》动态代理(包时),可以看到我们刚才领取到的免费IP信息:


![](https://img-blog.csdnimg.cn/img_convert/af992439983a07d18fa5ca15502fd9d3.png)


7、将自己电脑的IP添加为白名单能获取代理IP,点击授权信息:


![](https://img-blog.csdnimg.cn/img_convert/35068aecd85d8f000dc5d8ebfb5bd364.png)


8、依次点击修改授权》快速添加》确定


![](https://img-blog.csdnimg.cn/img_convert/edd1ca9185001a7e7cf3b4b0dc0ad389.png)


9、添加完成后,点击生成提取链接:


![](https://img-blog.csdnimg.cn/img_convert/92854a09f6f27d2a458d88bd254591f2.png)


10、设置每次提取的数量,点击生成链接,并复制链接:


![](https://img-blog.csdnimg.cn/img_convert/32d8b42cd7311b15e28d7eee50909e86.png)


11、将复制链接,复制到地址栏就可以看到我们获取到的代理IP了:


![](https://img-blog.csdnimg.cn/img_convert/f244cadc42adea41f9f4237f157

你可能感兴趣的:(程序员,python,爬虫,sqlserver)