python 电影网站爬虫项目_python电影网站(2)

        else:  # 没有概述
            data.append(" ")

        Bd = re.findall(findBd,item)[0]
        # 将bd中的 (\s+)? 替换
        Bd = re.sub('(\s+)?'," ",Bd)
        data.append(Bd.strip()) # strip去掉前后空格

        datalist.append(data)    #把处理好的一个电影信息存储到datalist中
#解析网页
return datalist

#获取指定一个网页内容
def askURL(url):
head = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.116 Safari/537.36”
} #伪装成网页的形式,请求网页信息
request = urllib.request.Request(url,headers=head)
html = “” # 存放到html中
try: # 防止出现意外
response = urllib.request.urlopen(request)
html = response.read().decode(“utf-8”) # 读取response
#print(html)
except urllib.error.URLError as e: # 捕获404 500 等浏览器错误
if hasattr(e,“code”): #将其输出
print(e.code)
if hasattr(e,“reason”): # 输出没有捕获成功的原因
print(e.reason)
return html
#保存数据
def saveData(datalist,savepath):
print(“save…”)
book = xlwt.Workbook(encoding=“utf-8”,style_compression=0) # style_compression样式压缩效果
sheet = book.add_sheet(‘豆瓣电影Top250’,cell_overwrite_ok=True) #cell_overwrite_ok单元格覆盖
col = (“电影详情链接”,“封面链接”,“影片中文名”,“影片外国名”,“评分”,“评价数”,“概况”,“相关信息”,“”) # 列属性
for i in range(0,8): # 写列名
sheet.write(0,i,col[i])
for i in range(0,250):
print(“第%d条”%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j]) #
book.save(‘豆瓣电影Top250.xls’)

def saveData_db(datalist,dbpath):
ini

你可能感兴趣的:(2024年程序员学习,python,爬虫,开发语言)