python爬虫小案例抓取豆瓣电影_Python---正则表达式 与 爬虫小实例(抓取豆瓣电影中评分大于等于8分的影片)...

本文是利用python,正则表达式构造爬虫,去爬豆瓣的标签下的电影,通过分数作为区分。

# coding=utf-8 ##

#到豆瓣电影列表抓去大于等于8分的电影#

#http://movie.douban.com/tag/%E5%8A%A8%E4%BD%9C?start=0&type=T

import urllib2

import re

import sys

# 获取当前系统编码格式

type = sys.getfilesystemencoding()

j = 0

for i in range(0, 2000, 20):

#url = 'http://movie.douban.com/tag/%E5%8A%A8%E4%BD%9C?'

url = 'http://movie.douban.com/tag/动作?'

hash = 'start=%d&type=S' % i

url = url + hash

print(url)

# 读取url内容

content = urllib2.urlopen(url).read()

# 转换编码

content = content.decode("UTF-8").encode(type)

# 读取电影名称

match = re.findall(r' ', content)

# 读取分数

match2 = re.findall(r'(.*?)', content)

#print len(match2)

for i in range(0,len(match2)):

#大于8分的电影

if match2[i]!="":

if float(match2[i])>=8:

j = j + 1

print match[i]+" "+match2[i]

print ('总共抓取电影数据'+ str(j) +'条').decode("UTF-8").encode(type)

print 'done'

你可能感兴趣的:(python爬虫小案例抓取豆瓣电影_Python---正则表达式 与 爬虫小实例(抓取豆瓣电影中评分大于等于8分的影片)...)