python 电影网站爬虫项目_python电影网站

findLink = re.compile(r’‘) # compile创建正则表达式对象,表示规则(字符串模式)
#封面图片
findImgSrc = re.compile(r’src="(.?)".>‘,re.S) # re.S 忽略换行符
#电影名称
findTitle = re.compile(r’(.
)‘)
#评分
findRating = re.compile(r’(.)‘)
#评价人数
findJudge = re.compile(r’(\d)人评价‘) # \d表示数字 * 多个
#概况
findInq = re.compile(r’(.)‘)
#电影详细内容
findBd = re.compile(r’

(.?)

',re.S)

#爬取网页
def getData(baseurl):
datalist = [] # 获取地址中的数据列表,并返回
for i in range(0,10): # 调用获取页面信息的函数10次,一次25条
url = baseurl + str(i*25)
html = askURL(url) # 保存获取到的网页源码
# 2.逐一解析数据
soup = BeautifulSoup(html,“html.parser”) # html.parser网页解析器
# find_all()是按照一定的标准,将符合要求的字符串一次性查找出来形成列表
for item in soup.find_all(‘div’,class_=“item”): # class后的 _ 表示属性值
#print(item)
data = [] # 保存一部电影的所有信息
item = str(item) # 将其转为字符串
# 提取超链接 re库用来通过正则表达式找到指定的字符串 findLink是自定义的全局变量
Link = re.findall(findLink,item)[0] # [0]第一个
data.append(Link) # 将连接追加到列表中

        ImgSrc = re.findall(findImgSrc,item)[0]
        data.append(ImgSrc)

 

你可能感兴趣的:(python,爬虫,开发语言)