python3:urllib/urllib2

标题python3对urllib和urllib2进行了重构

python3对urllib和urllib2进行了重构,拆分成了urllib.request,urllib.response, urllib.parse, urllib.error等几个子模块,这样的架构从逻辑和结构上说更加合理。urllib库无需安装,python自带。
python 3.x中urllib库和urilib2库合并成了urllib库。 其中
urllib2.urlopen()变成了urllib.request.urlopen()
urllib2.Request()变成了urllib.request.Request()
python2中的cookielib改为http.cookiejar.
import http.cookiejar代替 import cookielib
再次强调:print “hello”;应写为print(“hello”);
urljoin现在对应的函数是urllib.parse.urljoin

# coding:utf8
import urllib.request
import http.cookiejar
url ="http://www.baidu.com"
print ('第一种方法')
response1=urllib.request.urlopen(url)
print (response1.getcode())
print (len(response1.read()))
print ('第二种方法')
request=urllib.request.Request(url)
request.add_header("user-agent","Mozilla/5.0")#将爬虫伪装成浏览器
response2=urllib.request.urlopen(request)
print (response2.getcode())#打印状态码
print (len(response2.read()))#打印内容长度
print ('第三种方法')
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3=urllib.request.urlopen(url)
print (response1.getcode())
print (cj)
print (response1.read())

你可能感兴趣的:(python系列)