python入门学习day01

  1. 基础爬虫知识入门-01
#导入模块
import urllib.request
#爬取的目标网页
file = urllib.request.urlopen("http://www.baidu.com")
 #读取全部网页,file.readline读取行
data = file.read()
print(data)
#打开路径,wb表示以二进制方式写入
fhandle = open("D:/python/baidu.html","wb")
#write方法写入数据
fhandle.write(data)
fhandle.close()
  1. 补充说明
    其他更快捷的方式:使用urlretrieve方法
    filename=urllib.request.urlretrieve(“http://www.baidu.com”,filename=“D:/baidu.html”),但是urlretrieve会有数据缓存,使用urllib.request.urlcleanup()方法可以清除缓存。
    urllib补充:
    #file.info环境信息,file.getcode获取状态码,file.geturl获取爬取的链接
    #当链接含有中文或者其他字符时,可以使用urllib.request.quote进行编码,使用urllib.request.quote(“链接”),使用urllib.request.unquote()解码。

你可能感兴趣的:(python入门学习day01)