Python爬虫--嗅事百科小练习~(简单的反爬处理)

呃呃呃,作为一个爬虫小白,先找一些简单的例子练练手,大神勿喷,我正在学习=_=

项目内容:

    用python 爬取嗅事百科(我用的是python2.7)

使用方法:

    新建一个wangye.py文件,然后将代码复制到里面后,双击运行。

程序功能:

    在自定义文本中浏览嗅事百科

解释说明:

    嗅事百科主页面链接:我是嗅事百科,http://www.qiushibaike.com/hot/page/1 ,可以发现page后面对应的是页码数。

下面的例子我爬取了1-11页的段子。

程序代码:

import urllib
import urllib2
import re
import time

for page in range(1, 11):
    print('at page %s' % page)
    url = 'http://www.qiushibaike.com/8hr/page/' + str(page)    #获取网页源代码
    user_agent = 'Mozilla/5.0 ( Windows NT 6.1)'
    headers = {'User-Agent': user_agent}

    try:
        request = urllib2.Request(url, headers=headers)
        response = urllib2.urlopen(request)
        content = response.read().decode('utf-8')
        pattern = re.compile('.*?(.*?).*?
.*?', re.S) items = re.findall(pattern, content) for item in items: print item        #输出段子 except urllib2.URLError, e: if hasattr(e, "code"): print e.code if hasattr(e, "reason"): print e.reason time.sleep(1)    #用时间延迟来反爬虫=_=

结果显示:

Python爬虫--嗅事百科小练习~(简单的反爬处理)_第1张图片

额,这个真的是超级简单,程序正常运行,未报错。


你可能感兴趣的:(python爬虫,Python网页爬虫)