angdingtun6231

class 14 爬虫基础

Spider简介：　

　　可以分成简单的几步：抓取页面，分析页面和存储数据（主要用到的库有requests，Selenium，aiohttp）

解决JavaScrip渲染问题

分析Ajax请求
Selenium/ WebDriver
Splash
PyV8、Ghost.py

解析方式

直接处理
Json解析
正则表达式
BeautifulSoup
PyQuery
XPath

爬取数据类型

网页文本：如HTML、JSON格式文本等
图片：获取到的是二进制文件，保存为图片格式
视频：同为二进制文件，保存为视频格式
其他：只要能请求到的，都能获取

保存数据

文本：纯文本、Json、Xml等
关系型数据库：如MySQL、Oracle、SQL Server等具有结构化表结构形式存储
非关系型数据库：MongoDB、Redis等Key-Value形式存储。
二进制文件：图片、视频、音频等直接保存成特定格式即可。

选择器：

网页由一个个节点组成， CSS选择器会根据不同的节点设置不同的样式规则:
- 在 css 中，使用 css 选择器来定位节点。例: div 节点的 id 为 container，那么就可以表示为＃container，其中＃开头代表选择 id，其后紧跟 id 的名称。
- 如果想选择 class 为 wrapper 的节点，便可以使用.wrapper，这里以点（．）开头代表选择 class ，其后紧跟 class 的名称。
- 根据标签名筛选，例如想选择二级标题，直接用 h2 即可。这是最常用的 3 种表示，分别是根据id、class、标签名筛选，请牢记它们的写法。

CSS 选择器还支持嵌套选择，

各个选择器之间加上空格分隔开便可以代表嵌套关系，如 #container .wrapper p 则代表先选择 id 为 container 的节点，然后选中其内部的 class 为 wrapper 的节点，然后再进一步选中其内部的 p 节点。

如果不加空格，则代表并列关系，如 div#container .wrapper p .text 代表先选择 id 为 container 的 div 节点，然后选中其内部的 class 为 wrapper 的节点，再进一步选中其内部的 class 为 text 的 p 节点。这就是 css 选择器，其筛选功能还是非常强大的。

CSS 选择器还有一些其他语法规则，具体如表 2-4 所示:

选择器	例子	例子描述	CSS
.class	.intro	选择 class="intro" 的所有元素。	1
#id	#firstname	选择 id="firstname" 的所有元素。	1
*	*	选择所有元素。	2
element	p	选择所有元素。	1
element,element	div,p	选择所有元素和所有元素。	1
element element	div p	选择元素内部的所有元素。	1
element>element	div>p	选择父元素为元素的所有元素。	2
element+element	div+p	选择紧接在元素之后的所有元素。	2
[attribute]	[target]	选择带有 target 属性所有元素。	2
[attribute=value]	[target=_blank]	选择 target="_blank" 的所有元素。	2
[attribute~=value]	[title~=flower]	选择 title 属性包含单词 "flower" 的所有元素。	2
[attribute\|=value]	[lang\|=en]	选择 lang 属性值以 "en" 开头的所有元素。	2
:link	a:link	选择所有未被访问的链接。	1
:visited	a:visited	选择所有已被访问的链接。	1
:active	a:active	选择活动链接。	1
:hover	a:hover	选择鼠标指针位于其上的链接。	1
:focus	input:focus	选择获得焦点的 input 元素。	2
:first-letter	p:first-letter	选择每个元素的首字母。	1
:first-line	p:first-line	选择每个元素的首行。	1
:first-child	p:first-child	选择属于父元素的第一个子元素的每个元素。	2
:before	p:before	在每个元素的内容之前插入内容。	2
:after	p:after	在每个元素的内容之后插入内容。	2
:lang(language)	p:lang(it)	选择带有以 "it" 开头的 lang 属性值的每个元素。	2
element1~element2	p~ul	选择前面有元素的每个元素。	3
[attribute^=value]	a[src^="https"]	选择其 src 属性值以 "https" 开头的每个元素。	3
[attribute$=value]	a[src$=".pdf"]	选择其 src 属性以 ".pdf" 结尾的所有元素。	3
[attribute=value*]	a[src*="abc"]	选择其 src 属性中包含 "abc" 子串的每个元素。	3
:first-of-type	p:first-of-type	选择属于其父元素的首个元素的每个元素。	3
:last-of-type	p:last-of-type	选择属于其父元素的最后元素的每个元素。	3
:only-of-type	p:only-of-type	选择属于其父元素唯一的元素的每个元素。	3
:only-child	p:only-child	选择属于其父元素的唯一子元素的每个元素。	3
:nth-child(n)	p:nth-child(2)	选择属于其父元素的第二个子元素的每个元素。	3
:nth-last-child(n)	p:nth-last-child(2)	同上，从最后一个子元素开始计数。	3
:nth-of-type(n)	p:nth-of-type(2)	选择属于其父元素第二个元素的每个元素。	3
:nth-last-of-type(n)	p:nth-last-of-type(2)	同上，但是从最后一个子元素开始计数。	3
:last-child	p:last-child	选择属于其父元素最后一个子元素每个元素。	3
:root	:root	选择文档的根元素。	3
:empty	p:empty	选择没有子元素的每个元素（包括文本节点）。	3
:target	#news:target	选择当前活动的 #news 元素。	3
:enabled	input:enabled	选择每个启用的元素。	3
:disabled	input:disabled	选择每个禁用的元素	3
:checked	input:checked	选择每个被选中的元素。	3
:not(selector)	:not(p)	选择非元素的每个元素。	3
::selection	::selection	选择被用户选取的元素部分。	3

爬虫的基本原理：

发起请求——> 获取响应内容——>解析内容——>保存数据
- 发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的Headers等信息，等待服务器响应
- 解析内容：得到的内容可能是HTML，通用正则表达式提取（万能方法）、网页解析库进行行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。
- 获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容　　
- 保存数据：保存形式多样可以存为文本，也可以保存至数据库(MySQL和MongoDB)，或者保存特定格式的文件(TEXT,JSON)

Request与Response

关系　
- HTTP Request：浏览器发送消息给该网址所在的服务器
- 　　HTTP Response：务器收到浏览器发送的消息后，能够根据浏览器发送的消息内容做相应处理，然后把消息回传给浏览器。
- 浏览器收到服务器的response信息后，会对信息进行相应处理，然后展示。
HTTP请求过程：
- Name：请求的名称，一般会将URL的最后一部分内容当作名称
- Status：响应的状态码，显示200，代表响应正常。通过状态码，可以判断发送请求后是否得到正常的响应
- Type：请求的文档类型。这里问document，代表我们请求的是一个HTML文档，内容就是一些HTML代码
- Initiator：请求源。用来标记请求是由哪个对象或进程发起的
- Size：从服务器下载的文件和请求的资源大小。如果是从缓存中取的资源，则该列会显示from cache。
- Time：发起请求得到获取响应所用的总时间
- Waterfall：网络请求的可视化瀑布流。

请求（Request）
- 请求由客户端想服务端发出，可以分为4个部分：请求方法（Request Method）、请求的网址（Request URL）、请求头（Request Headers）、请求体（Request Body）
请求方法
- 请求方式：常见的主要有GET、POST两种类型，另外还有HEAD、PUT、DELETE、OPTIONS等
  - GET和POST请求方法主要区别。
    - GET请求中的参数包含在URL里面，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输的，会包含在请求体中。
    - GET请求提交的数据最多只有1024字节，而POST方式没有限制。
- 请求头：包含请求时的头部信息，如比较重要的信息有：Referer、User-Agent、Host、Cookies等信息
  - Accept：请求报头域，用于指定客户端可接受哪些类型的信息。
  - Accept-Language：指定客户端可接受的语言类型。
  - accept-Encoding：指定客户端可接受的内容编码。
  - Host：用于指定请求资源的主机IP和端口号，其内容为请求URL的冤死服务器或网关的位置。从HTTP1.1版本开始，请求必须包含此内容
  - Cookie：常用复数形式Cookies，这是网站为了辨别用户进行绘画跟踪而存储在用户本地的数据。它主要的功能是维持当前访问会话。
  - Referer：此内容用来标识这个请求是从哪个页面发过来的，服务器可以拿到这一信息并做相应的处理，如源统计，防盗链处理等
  - User-Agent：简称UA，它是一个特殊的字符串头，可以使服务器识别客户使用的操作系统及版本，浏览器及版本等信息。他在做爬虫加上此次信息，可以伪装为浏览器；如果不加，可能会识别为爬虫
  - Content-Type：也叫互联网媒体类型或者MIME类型，在HTTP协议消息头中，它用来表示具体请求中的媒体类型信息。如：text/html代表HTML格式，image/gif代表GIF图片，application/json代表JSON类型，更多对应关系可查看对照表：http://tool.oschina.net/commons
- 请求URL：URL全称统一资源定位符，如一个网页文档、一张图片、一个视频等都可以用URL唯一来确定
- 请求体：请求时额外携带的数据。如表单提交时的表单数据
  - 只有设置Request Headers中指定Content-Type 为application/x-www-form-urlencoded，才会以表单数据的形式提交。另外，我们也可以将Content-Type设置为application/json来提交json数据，或者设置为multipart/form-data来上传文件。
  - Content-Type和POST提交数据方式的关系
    - application/x-www-form-urlencoded : 表单数据
    - multipart/form-data :表单文件上传
    - application/json ：序列化JSON数据
    - text/xml : XML数据
- 注意：爬虫中，如果要沟构造POST请求，需要使用正确的Content-Tpye，并了解各种请求库的各个参数设置时使用的是哪张Content-Type，不然会导致POST提交后无法正常响应
响应（Response）
- 响应由服务端返回给客户端，可以分为三部分：响应状态码(Response Status Code)、响应头(Response Headers)和响应体(Response Body)
Response
- 响应状态：有多种响应状态，如200代表成功、301跳转、4040找不到网页...
- 响应头：包含服务器对请求应答信息，如：content-type、server、set-cookies等。
  - Date：标识响应产生的时间。
  - Last-Modified：指定资源的最后修改时间
  - Content-Encoding：指定响应内容的编码
  - Server：包含服务器的信息，比如名称，版本号等。
  - Content-Type：文档类型，指定返回的数据类型是什么，如text/html代表返回HTML文档，application/x-javascript则代表JavaScript文件，image/jpeg则代表返回图片。
  - Set-Cookies：设置Cookies。响应头中的Set-Cookies告诉浏览器需要将此内容放在Cookies中，下次请求携带Cookies请求
  - Expires：指定响应的过期时间，可以使代理服务器或浏览器将加在的内容更新到缓存中。如果再次访问时，就可以直接从缓存中加载，降低服务器负载，缩短加载时间。
- 响应体：最主要的部分，包含请求资源的内容，网页HTML、图片二进制数据等
- Cookies属性结构：
  - Name：该Cookie的名称，一旦创建便不可更改
  - Value：该Cookie的值。如果值为Unicode字符，需要为字符编码。如果值为二进制数据，则需要使用BASE64编码
  - Domain：可以访问该Cookie的域名。例如，如果设置为.zhihu.com，则所有已zhihu.com结尾的域名都可以访问该Cookie
  - Max Age：该Cookie失效时间，单位为秒，也场合Expires一起使用，通过它可以计算出有效时间。Max Age如果为正数，则该Cookie在Max Age秒之后失效。如果为负数，则关闭浏览器时Cookie即失效，浏览器也不会以任何形式保存该Cookie
  - Path：该Cookie的使用路径。如果设置为/Path/，则只有路径为/Path/的页面可以访问该Cookie。如果设置为/，则域名下的所有页面都可以访问该Cookie。
  - Size字段：此Cookie的大小
  - HTTP字段：Cookie的httponly属性。若此属性为true，则只有在HTTP头中会带有此Cookie信息，而不能通过document.cookie来访问此Cookie。
  - Secure：该Cookie是否仅被使用安全协议传输。安全协议有HTTPS和SSL等，在网络上传输数据之前先将数据加密。默认为false。
- 会话Cookie：把Cookie放在浏览器内存里，浏览器在关闭之后该Cookie即失效
- 持久Cookie：把Cookie保存到客户端硬盘里，下次还可以继续使用，用于长久保持用户登录状态。
- 严格来讲，没有会话Cookie和持久cookie之分，只是由Cookie的Max Age或Expires字段决定过期时间。

代理的基本原理

代理分类
- 根据协议类型区分
  - FTP代理服务器：主要用于访问FTP服务器，一般有上传、下载以及缓存功能，端口一般为21、2121等
  - HTTP代理服务器：主要用于访问网页，一般有内容过滤和缓存功能，端口一般为80、8080、3128等
  - SSL/TLS代理：主要用于访问加密网站，一般有SSL或TLS加密功能（最高支持128位加密强度），端口一般为443
  - RTSP代理：主要用于访问R额按了流媒体服务器，一般有缓存功能，端口一般为554.
  - Telnet代理：主要用于telnet远程控制（黑客入侵计算机时常用于隐藏身份），端口一般为23.
  - POP3/STP代理：主要用于POP3/SMTP方式发邮件，一般有缓存功能，端口一般为110/25.
  - SOCKS代理：只是单纯传递数据包，不关心具体协议和用法，所以速度快很多，一般有缓存功能，端口一般为1 0 8 0。SOCKS代理协议又分为SOCKS4和SOCKS5，前者只支持TCP ,而后者支持TCP和UDP，还支持各种身份验证机制、服务器端域名解析等。简单来说，SOCKS4能做到的SOCKS5都可以做到，但SOCKS5能做到的SOCKS4不一定能做到
- 根据匿名程度区分
  - 高度匿名代理：会将数据包原封不动地转发，在服务端看来就好像真的是一个普通客户端在访问，而记录的IP是代理服务器的IP
  - 普通匿名代理：会在数据包上做一些改动，服务端上有可能发现这是个代理服务器，也有一定几率追查到客户端的真实IP。代理服务器通常会加入的HTTP头有HTTP_VIA和HTTP_X_FORWARDED_FOR。
  - 透明代理：不但改动数据包，还会告诉服务器客户端的真实IP。这种代理除了能用缓存技术提高浏览速度，能用内容过滤提高安全性之外，并无其他显著作用。最常见的例子是内网中的硬件防火墙
  - 间谍代理：值组织或个人创建的用于记录用户传输的数据，然后进行研究、监控等目的的代理服务器。
常见代理设置
- 使用网上的免费代理：最好使用高匿名代理，另外可用的代理不多，需要在使用前筛选一下可用代理，也可以进一步维护一个代理池
- 使用付费代理服务：互联网上存在许多代理商，可以付费使用，质量比免费代理好很多。
- ADSL拨号：拨一次号换一次IP，稳定性高，也是一种比较有效的解决方案。

三章：基本库的使用

使用urllib
- urllib是python 内置的HTTP请求库，包含4个模块。库官方文档：https://docs.python.org/3/library/urllib.html
  - request：是最基本的HTTP请求模块，可以用来模拟发送请求。只需要给库方法传入URL以及额外的参数
  - error：异常处理模块，如果出现请求错误，可以捕获这些一场，进行重试或其他操作以保证长须不会意外终止。
  - parse：一个工具模块，提供许多URL处理方法，如：拆分/解析/合并等
  - robotparser：主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬，使用比较少。
1. 发送请求
  - 使用urllib的request模块，可以方便地实现请求的发送并得到响应
  1. urlopen
    - urlopen()方法用法，官方文档：https://docs.python.org/3/library/urllib.request.html
    - urllib.request 模块提供最基本的构造HTTP请求的方法，利用他可以模拟浏览器的一个请求发起过程，同时还带有处理授权验证、重定向、浏览器Cookies以及其他内容
      import urllib.request response = urllib.request.urlopen('https://www.python.org') print(response.read().decode('utf-8')) print(type(response)) 输出类型为<class 'http.client.HTTPResponse'>
    - 以上内容是一个HTTPResponse类型对象，主要包含read()、readinto()、getheader(name)、getheaders()、fileno()等方法，以及msg、version、status、reason、debuglevel、close等属性。得到这个对象后，把它赋值为response变量，然后就可以调用这些方法属性，得到返回结果的一系列信息。
      - 例:调用read()方法可以德奥犯规的网页内容，调用status属性可以得到返回状态码(200代表请求成功，404代表网页未找到等)
    - 如果想给链接传递一些参数，如何实现，urlopen()函数的API:
      - urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None), 意味着除了可以传递URL之外，还可以传递其他内容，比如data(附加数据)、timeout(时间设置)等，
        
        data参数
        
        data参数是可选的，如果需要添加，并且如果它是字节流编码格式的内容，即bytes类型，则需要通过bytes()方法转化。另外，如果传递这个参数，则他的请求方式就不在是Get方式，而是POTS方式。例：
        
        import urllib.parse import urllib.request data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding = 'utf-8') response = urllib.request.urlopen('http://httpbin.org/post',data= data) print(response.read())
        
        这里我们传递一个参数word，值是hello。需要被转码成bytes(字节流)类型。其中转字节流采用了bytes()方法，该方法的第一个参数需要是str(字符串)类型，需要用urllib.parse模块里的urlencode()方法来将参数字典转化为字符串。　　这里请求的站点是httpbin.org，他可以提供HTTP请求测试。本次的链接中http://httpbin.org/post可以用来测试POST请求，可以输出请求的一些信息，其中包含我们传递的data参数。　　我们传递的参数出现在form字段中，是表明模拟表单提交方式，以POST方式传输数据
        
        timeout参数
        
        timeout参数用于设置超时时间，单位为秒。它支持HTTP,HTTPS,FTP请求
        
        其他参数
        
        context参数，它必须是ssl.SSLContext类型，用来指定SSL设置
        
        cafile和capath参数，分别指定CA证书和它的路径，这个在请求HTTPS链接时会有用
        
        cadefault参数默认False，已弃用
  2. Request
    - 例：
      import urllib.request request = urllib.request.Request('https://python.org') response = urllib.request.urlopen(request) print(response.read().decode('utf-8'))
      依然使用urlopen()方法来发送请求，这次该方法的参数不再是URL，而是一个Request类型的对象。通过构造这个数据结构，一方面可以将请求独立成一个对象，另一方面可以更加丰富和灵活配置参数。
      - Request的参数构造
        
        class urllib.request.Request(url, data=None, headers={}, origin_req_host=None，unverifiable=False，methond=None)　　　　
        
        url参数：用于请求URL，这是必传参数，其他都是可选参数。　　　　
        
        data参数：可选传参数，如果传必须要是bytes(字节流)类型的。如果它是字典，可以先用urllib.parse模块里的urlencode()编码。　　　　
        
        headers参数：是一个字典，它就是请求头，可以在构造请求时通过headers参数直接构造，也可以通过调用请求实例的add_header()方法添加。　　添加最常用的方法就是修改User-Agent来伪装浏览器，默认的User-agent是Python-urllib，可以通过修改它来伪装。　　　　　　
        
        例：伪装火狐浏览器，可设置为： Mozilla/5.0(X11; u; Linux i686) Gecko/20071127 Firefox/2.0.0.11　　　　
        
        origin_req_host参数：请求方的host名称或者IP地址　　　　
        
        unverifiable参数：表示这个请求是否无法验证的，默认是False。意思就是说用户没有足够权限来选择接受这个请求的结果　　　　
        
        例：请求一个HTML文档中的图片，但是没有自动抓取图像的权限，这时候unverifiable的值就是True。　　　　
        
        method参数：是一个字符串，用来指示请求使用的方法，如GET、POST和PUT等。　　　　
        
        传入多个参数构建请求：　　　　
        
        from urllib import request,parse url='https://httpbin.org/post' headers={'User-Agent':'Mozilla/4.0(com[atible;MSIE 5.5; Windows NT)', 'host':'httpbin.org'} dict={'name':'Germey'} data = bytes(parse.urlencode(dict),encoding='utf-8') req=request.Request(url=url,data=data,headers= headers,method = 'POST') response=request.urlopen(req) print(response.read().decode('utf-8'))
        
        其中headers指定User-Agent和Host，参数data用urlencode()和bytes()方法转成字节流。另外指定请求方式为POST。
        
        另外headers也可以用add_header()方法来添加：
        
        req= request.Request(url=url,datd= data, method='POST) req.add_headers('User-Agent','Mozilla/4.0(compatible; MSIE 5.5; Windows NT)')
1. - 3.高级用法
- - - urllilb.request模块里的BaseHandler类，是所有其他Handler的父类，它提供最基本的方法，例：default_open()、protocol_request等（各种Handler子类继承BaseHandler类举例）
      - HTTPDefaultErrorHandler：用于处理HTTP响应错误，错误都会抛出HTTPError类型的异常。
      - HTTPRedirectHandler：用于处理重定向
      - HTTPCookieProcessor：用于处理Cookies
      - ProxyHandler：用于设置代理，默认代理为空
      - HTTPPasswordMgr：用于管理密码，它维护了用户名和密码的表
      - HTTPBasicAuthHandler：用于管理认证，如果一个连接打开时需要认证，那么可以用它来解决认证问题
      - 其他Handler类，参考官方文档：https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler
    - 另一个比较重要的类OPenerDirector，可以称为Opener。Opener可以使用open()方法，返回类型和urlopen()如出一辙。就是利用Handler来构建Opener().
      - 验证
        
        部分网站打开需要你输入用户名和密码，验证成功才能查看页面，如果请求这样页面。借助HTTPBasicAuthHandler可以完成，相关代码：
        
        from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_opener from urllib.error import URLError username = 'username' password='password' url='http://localhost:5000/' p=HTTPPasswordMgrWithDefaultRealm() p.add_password(None,url,username,password) auth_handler=HTTPBasicAuthHandler(p) opener=build_opener(auth_handler) try: result=opener.open(url) html=result.read().decode('utf-8') print(html) except URLError as e: print(e.reason)
        
        首先实例化HTTPBasicAuthHandler对象，其参数HTTPPasswordMgrWithDefaultRealm对象，它利用add_password()添加进去用户名和密码，这样就能建立一个处理验证的Handler。　　接下来，利用这个Handler并使用build_opener()方法构建一个Opener，这个Opener在发送请求时就相当于已经验证成功。　　利用Opener()的open方法打开链接就可以完成验证。　　这里获取到的结果就是样后的页面码源内容。
      - 代理
        
        爬虫时候丢需要代理，如果要添加代理，可如下：
        
        from urllib.request import ProxyHandler,build_opener from urllib.error import URLError proxy_handler=ProxyHandler({ 'http':'http://127.0.0.1:9743', 'https':'https://127.0.0.1:9743' }) opener=build_opener(proxy_handler) try: response =opener.open('https://www.baidu.com') print(response.read().decode('utf-8')) except URLError as e: print(e.reason)
        
        在本地搭建一个代理，运行在9734端口上。这里是有ProxyHandler，其参数是一个字典，键名是协议类型（例：HTTP或HTTPS等），键值是代理链接，可添加多个代理。然后利用这个Handler及build_opener()方法构造一个Opener，之后发送请求即可。
      - Cookies
        
        Cookie的处理需要相关的Handler，例：
        
        import http.cookiejar,urllib.request cookie =http.cookiejar.CookieJar() handler =urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response =opener.open('http://www.baidu.com') for item in cookie: print(item.name+"="+item.value)
        
        首先，我们必须声明一个cookieJar对象。接下来，需要利用HTTPCookieProcessor构建一个Handler，再利用build_opener()方法构建出Opener，执行open()函数即可。这里会输出每条cookie的名称和值
        
        Cookies实际上也是以文本形式保存的，既然能输出，也就可以输出成文件格式。例：
        
        import http.cookiejar,urllib.request filename='cookies.txt' cookie= http.cookiejar.MozillaCookieJar(filename) handler=urllib.request.HTTPCookieProcessor(cookie) opener=urllib.request.build_opener(handler) response=opener.open('http://www.baidu.com') cookie.save(ignore_discard=True,ignore_expires= True)
        
        这时CookieJar就需要换成MozillaCookieJar，它在生成文件时会用到，是CookieJar的子类，可以用来处理Cookies和文件相关的事件，比如读取和保存Cookies，可以将Cookies保存成Mozilla型浏览器的Cookies格式。运行后可以生成一个cookies.txt文件。另外LWPcookieJar同样可以读取和保存Cookies，但是保存的格式和MozillaCookieJar不一样，会保存成libwww-perl(LWP)格式的cookies文件。可在声明时改为：
        
        cookie = http.cookiejar.LWPCookieJar(filename)
        
        读取cookie(LWPCookieJar格式为例)：
        
        import http.cookiejar,urllib.request cookie= http.cookiejar.LWPCookieJar() cookie.load('cookies.txt',ignore_discard=True,ignore_expires=True) handler=urllib.request.HTTPCookieProcessor(cookie) opener=urllib.request.build_opener(handler) response=opener.open('http://www.baidu.com') print(response.read().decode('utf-8'))
        
        在此处调用load()方法来读取本地的Cookies文件，获取到Cookies内容。前提我们生成LWPCookieJar格式的Cookies文件。然后读取Cookies之后使用同一的方法构建Handler和Opener。运行结果正常会输出百度页面的源代码。
        
        urllib库的request模块基本使用方法，更多可参考官方文档：https://docs.python.org/3/library/urllib.request.html#basehandler-objects。
- 2.处理异常　　
  - urllib的error模块定义了由request模块产生的异常，如果出现问题，request模块便会抛出error模块中定义的异常
  1. URLError
    - URLError类来自urllib库的error模块，它继承自OSError类，是error异常模块的基类，由request模块生成的异常都可以通过捕捉这个类来处理。它具有一个reason，即返回错误的原因。例：
      from urllib import request,error try: response=request.urlopen('https://cuiqingcai.com/index.htm') except error.URLError as e: print(e.reason)
      打开不存在的页面，这时候捕获URLError这个异常，而没有报错。这样可以避免程序异常终止，同时异常得到有效处理。
  2. HTTPError
    - 它是URLError的子类，专门处理HTTP请求错误，如认证失败等。有如下3个属性
    1. 1. Code：返回HTTP状态码，如404表示网页不存在，500表示服务器内部错误等。
      2. Reason：同父类一样，用于返回错误原因。
      3. headers：返回请求头。
    - 例：
      from urllib import request，error try: response=request.urlopen('https://cuiqingcai.com/index.htm') except error.HTTPError as e: print(e.reason,e.code,e.heanders)
      同样的网址，这里捕获的是HTTPError异常，输出reason、code和headers属性。因为URLError是HTTP的父类，所以这里先选择捕获子类错误，再捕获父类错误，故代码更新如下：
      from urllib import request，error try: response=request.urlopen('https://cuiqingcai.com/index.htm') except error.HTTPError as e: print(e.reason,e.code,e.heanders) except error.URLError as e: print(e.reason) else： print('Request Successfully')
      这样就可以先捕获HTTPError，获取它错误状态码、原因、headers等信息。如果不是HTTPError异常，就会捕获URLError异常，输出错误原因。有时候，reason属性返回的不一定是字符串，也可能是一个对象。例：
      import socket import urllib.request import urllib.error try: response= urllib.request.urlopen('https://www.baidu.com',timeout=0.01) except urllib.error.URLError as e: print(type(e.reason)) if isinstance(e.reason,socket.timeout): print('TIME OUT')
      这里直接设置超时来强制抛出timeout异常。reason属性的结果是socket.timeout类。所以，这可以用isinstance()方法来判断它的类，做出更详细的异常判断。
- 3.解析链接
  1. urlparse()　　　　　
    - 该方法可以实现URL的识别和分段，例：
      from urllib.parse import urlparse result= urlparse('http://www.baidu.com/index.html;user?id=5#comment') print(type(result),result)
      这里利用urlparse()方法进行一个URL解析。返回结果是一个ParseResult类型对象，包含6个部分，分别是scheme、netloc、path、params、query和fragment。该实例的URL: http://www.baidu.com/index.html;user?id=5#comment urlparse()方法将其拆分成6个部分。解析有特定的分割符。 :// 前面的就是scheme，代表协议；第一个/符号前面便是netloc，即域名，后面是path，即访问路径；分号；前面是params，代表参数；问好？后面是查询条件query，一般用作GET类型的URL;#后面是锚点，用于直接定位页面内部的下拉位置。可以得出一个标准的链接格式：scheme://netloc/path;params?query#fragment 一个标准的URL都会符合这个规则，利用urlparse()方法可以将它拆分开。
      - urlparse的API用法：urllib.parse.urlparse(urlstring,scheme=' ',allow_fragments=True), ，它有3个参数。
        
        urlstring：必填项，待解析的URL
        
        scheme：默认协议（如http或https等）。假设这个链接没有带协议信息，会将这个作为默认协议。例：
        
        from urllib.parse import urlparse result = urlparse('www.baidu.com/index.html;user?id=5#comment',scheme='https')
        
        运行结果：ParseResult(scheme='https', netloc='', path='www.baidu.com/index.html', params='user', query='id=5', fragment='comment')，所提供的URL没有包含前面的scheme信息，但通过制定默认的scheme参数，返回结果是https。如果带上scheme： result = urlparse('http://www.baidu.com/index.html;user?id=5#comment',scheme='https'), 结果就会返回解析出scheme带有的信息http
        
        allow_fragments：即是否忽略fragment。如果被设置为False，fragment部分就会被忽略，他会被解析为path、parameters或者query的一部分，而fragment部分为空。例：
        
        from urllib.parse import urllib result =urlparse('http://www.baidu.com/index.html;user?id=5#comment',allow_fragments=False) print(result)
        
        运行结果：
        
        ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5#comment', fragment='')
        
        如果URL中不包含params和query，例：
        
        from urllib.parse import urlparse result =urlparse('http://www.baidu.com/index.html#comment',allow_fragments=False) print(result)
        
        运行结果：
        
        ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html#comment', params='', query='', fragment='')
        
        可发现，当URL中不包含params和query时，fragment便会被解析为path的一部分。返回结果ParseResult实际上是一个元组，可以通过索引顺序来获取，也可以用属性名获取。例：
        
        from urllib.parse import urlparse result = urlparse('http://www.baidu.com/index.html#comment',allow_fragments=False) print(result.scheme,result[0],result.netloc,result[1])
        
        这里，分别用了索引和属性名获取scheme和netloc。输出结果与一致：
        
        http http www.baidu.com www.baidu.com
  2. urlunparse()
    - 有了urlparse()就会有对立方法urlunparse()。它接受的参数是一个可迭代对象，但长度必须是6，否则会抛出参数数量不足或过多问题.例：
      from urllib.parse import urlunparse data = ['http','www.baidu.com','index.html','user','a=6','comment'] print(urlunparse(data)) 输出结果： http://www.baidu.com/index.html;user?a=6#comment
      这里参数使data使用列表类型，也可以使用其他类型，比如元组或特定的数据结构。这样就可以成功是此案URL构造
  3. urlsplit()
    - 此方法和urlparse()相似。例：
      from urllib.parse import urlsplit result=urlsplit('http://wwww.baidu.com/index.html;user?id=5#comment') print(result)
      运行结果：
      
      SplitResult(scheme='http', netloc='wwww.baidu.com', path='/index.html;user', query='id=5', fragment='comment')
      运行结果是SplitResult，也是一个元组类型，既可以用属性获取，也可以使用索引获取。例：
      from urllib.parse import urlsplit result=urlsplit('http://wwww.baidu.com/index.html;user?id=5#comment') print(result.scheme,result[0]) 输出： http http
  4. 与urlunsplit()
    - 与urlunparse类似，它也是讲链接各个部分组合完成完整链接的方法，传入的参数也是一个可迭代对象，例如列表、元组，唯一的区别是长度必须为5。示例如下：
      from urllib.parse import urlunsplit data =['http','www.baidu.com','index.html','a=6','comment'] print(urlunsplit(data)) 输出： http://www.baidu.com/index.html?a=6#comment
  5. urljoin()
    - 有urlunparse()和urlunsplit()方法，就可以完成链接的合并，前提必须要有特定长度对象，链接的每一部分都要清晰分开。此外，生成链接还有另外一种方法，urljoin()方法。可以提供一个base_url（基础链接）作为第一个参数，将新的链接作为第二参数，该方法会分析base_url的scheme、netloc和path这3个内容并对新链接缺失的部分进行补充，最后返回结果。例：
      from urllib.parse import urljoin print(urljoin('http://www.baidu.com','FAQ.html')) >>>http://www.baidu.com/FAQ.html print(urljoin('http://www.baidu.com','https://cuiqingcai.com/FAQ.html')) >>> https://cuiqingcai.com/FAQ.html print(urljoin('http://www.baidu.com/about.html','https://cuiqingcai.com/FAQ.html?question=2')) >>> https://cuiqingcai.com/FAQ.html?question=2 print(urljoin('http://www.baidu.com?wd=abc','https://cuiqingcai.com/index.php')) >>> https://cuiqingcai.com/index.php
      base_url提供三项内容scheme、netloc和path。如果这3项在新链接里不存在，就予以补充；如果新链接存在，就是要新链接部分。而base_url中的parms、query和fragment是不起作用的。
    - 通过urljoin()方法，可以轻松实现链接的解析、拼合与是生成。
  6. urlencode()
    - urlencode()在构造GET请求参数的时候非常有用，例：
      from urllib.parse import urlencode params = { 'name':'germey','age':22} base_url ='http:www.baidu.com?' url=base_url+urlencode(params) print(url) 输出：
      http:www.baidu.com?name=germey&age=22
      这里首先声明一个字典来将参数表示出来，然后调用urlencode()方法将其序列化为GET请求参数。可得到，参数成功滴有字典类型转化为GET请求参数了。
  7. parse_qs()
    - 反序列化。如果有一串GET请求参数，利用parse_qs(）方法，就可以将它转回字典。例：
      from urllib.parse import parse_qs query = 'name=germey&age=22' print(parse_qs(query)) 输出： {'name': ['germey'], 'age': ['22']}
      这样就可以成功转回为字典类型了。
  8. parse_qsl()
    - parse_qsl()方法用于将参数转化为元组组成的列表，例：
      from urllib.parse import parse_qsl query ='name=germey&age=22' print(parse_qsl(query)) 输出： [('name', 'germey'), ('age', '22')]
      运行结果是一个列表，而列表中的每个元素都是一个元组，元组的第一个内容是参数名，第二个内容是参数值。
  9. quote()
    - 该方法可以将内容转化为URL编码格式。URL中带有中文参数时，有时候会导致乱码问题，此时用quote()这个方法可以将中文字符转化为URL编码。例：
      from urllib.parse import quote keyword='壁纸' url= 'https://www.baidu.com/s?wd='+quote(keyword) print(url) 输出： https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8
      这里声明一个中文的搜索文字，然后用quote()方法对其进行URL编码。
  10. unquote()
    - unquote()方法可以进行URL解码。例：
      from urllib.parse import unquote url='https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8' print(unquote(url)) 输出： https://www.baidu.com/s?wd=壁纸
      上面得到URL编码后的结果，可以利用unquote()方法进行还原，解码。
- 4.分析Robots协议
  - 利用urllib的robotparser模块，可以实现网站Robots协议的分析
  1. Robots协议
    - Robots协议也叫爬虫协议、机器人协议，用来告诉爬虫和搜索引擎哪些页面可以爬取。通常是一个叫robots。txt的文本文件，存放在网站的根目录下。当爬虫访问一个站点的时，会先检查这个站点根目录下是否穿在robots.txt文件，如果存在，爬虫会根据其中定义的范围来爬取。如果没找到这个文件，搜索爬虫变回访问所以可直接访问页面。例一个robots.txt样例：
      User-agent：* Disallow：/ Allow：/public/
      这实现对所有爬虫只允许爬取public目录功能，将上诉内容保存成robots.txt文件，放在网站的根目录下，和网站的入口文件(如index.php、index.html和index.jsp)放一起。
      - 上面的User-agent描述搜索爬虫的名称，这里将其设置为*代表协议对任何爬取爬虫都有效。例，可设置： User-agent：Baiduspider 这就代表我们设置的规则对百度爬虫是有效的。如果头多条User-agent记录，则代表会有多个爬虫收到爬取限制，但至少需要指定一条。
      - Disallow指定不允许抓取的目录，比如上例子中设置为/则代表不允许抓取所有页面。
      - Allow一般和Disallow一起使用，一般不会单独使用，用来排除某些限制。现在设置为/public/，则表示所有页面不允许爬取，但可以抓取public目录。
        
        禁止所有爬虫访问任何目录的代码如下：
        
        User-agent Disallow：/
        
        允许所有爬虫访问任何目录的代码如下：
        
        User-agent：* Disallow：
        
        另外把robots.txt文件留空也是可以的。
        
        禁止所有爬虫访问网站某些目录的代码：
        
        User-agent：* Disallow：/private/ Disallow：/tmp/
        
        只允许某一个爬虫访问的代码如下：
        
        User-agent：WebCrawler Disallow： User-agent：* Disallow：/
  2. 爬虫名称
  3. Robotparser
    - 在了解robots协议后，就可以使用robotparser模块来解析robots.txt.该模块提供一个类RobotFileParser，它可以根据网站的robots.txt文件来判断一个爬取爬虫是否有权限来爬取这个网页。
    - 该类使用起来只需要在构造方法里传入robots.txt的链接即可。它的声明：urllib.robotparser.robotFileParser(url=' ')
    - 当然，也可以在声明时不传入，默认为空，最后再使用set_url()方法设置一下也可。下面列出这个类常用几个方法：
      - set_url()：用来设置robots.txt文件的链接。如果创建RobotFileParser对象时传入了链接，那么就不需要再使用这个方法链接
      - read()：读取robots.txt文件并进行分析。注意：这个方法执行一个读取和分析操作，如果不调用这个方法，接下来判断都为False，所以一定需要调用。它不会返回任何内容，但执行读取操作。
      - parse()：用来解析robots.txt文件，传入的参数是robots.txt某些行的内容，他会按照robots.txt的语法规则来分析这些内容
      - can_fetch()：该方法传入两个参数，第一个是User-agent，第二个是要抓取的URL。返回的内容是该搜索引擎是否可以抓取这个URL，返回结果是True或Flase
      - mtime()：返回的是上次抓取和分析robots.txt的时间，这对于长时间分析和抓取的搜索爬虫是很有必要，需要定期检查来抓取最新的robots.txt　　
      - modified()：它同样对长时间分析和抓取的搜索爬虫有帮助，将当前时间设置为上次抓取和分析robots.txt的时间
        
        例：
        
        from urllib.robotparser import RobotFileParser rp = RobotFileParser() rp.set_url('http://www.jianshu.com/robots.txt') rp.read() print(rp.can_fetch('*','http://www.jianshu.com/p/b67554025d7d')) print(rp.can_fetch('*','http://www.jianshu.com/search?q=python&page=1&type=collections'))
        
        这里以简书为例，首先创建RobotFileParser对象，然后通过set_url()方法设置robots.txt的链接。或者可以在声明时候直接用:rp=RobotFileParser('http://www.jianshu.com/robots.txt'), 接着使用can_fetch()方法判断网页是否被抓取。
        
        同样也可以使用parse()方法执行读取和分析，示例：
        
        from urllib.robotparser import RobotFileParser from urllib.request import urlopen rp = RobotFileParser() rp.parse(urlopen('http://www.jianshu.com/robots.txt').read().decode('utf-8').split('\n')) print(rp.can_fetch('*','http://www.jianshu.com/p/b6755402Sd7d')) print(rp.can_fetch('*',"http://www.jianshu.com/search?q＝python&page=l&type=collections"))
使用requests
1. 基本用法
  1. 实例
    - urllib库中的urlopen()方法实际上是以GET方式请求网页，而requests中相应的方法就是get()方法。例：
      import requests r=requests.get('https://www.baidu.com/') print(type(r)) >>> <class 'requests.models.Response'> print(r.status_code) >>> 200 print(type(r.text)) >>> <class 'str'> print(r.text) >>> ....... print(r.cookies) >>> for .baidu.com/>]>
      这里调用get()方法实现与urlopen()相同操作，得到一个Response对象，然后分别输出Response的类型，状态码、响应体的类型、内容以及cookies。　　
    - 它的返回类型是requests.models.Response,响应体的类型是字符串str，Cookies的类型是RequestCookieJar。
    - 其他的请求类型依然可以使用一句话来完成，例：
    - r = requests.post('http://httpbin.org/post') r = requests.put('http://httpbin.org/put') r = requests.delete('http://httpbin.org/delete') r = requests.head('http://httpbin.org/get') r = requests.options('http://httpbin.org/get')
      这里分别用post()、put()、delete()等方法实现POST、PUT、DELETE等请求
  2. GET请求
    - HTTP中最常见的请求之一就是GET请求
    1. 构建GET请求
      - 请求链接为http://httpbin.org/get,该网站会判断如果客户端发起的是GET请求的话，返回响应请求信息：
        
        import requests r= requests.get('http://httpbin.org/get') print(r.text) 输出结果： { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Connection": "close", "Host": "httpbin.org", "User-Agent": "python-requests/2.18.4" }, "origin": "180.165.241.94", "url": "http://httpbin.org/get" }
        
        返回结果中包含请求头，URL、IP等信息
      - 如果对于GET请求需要附加额外信息，例(现在要添加两个参数，其中name是germey，age是22。要构造这样请求链接)
        
        一般这种信息数据会用字典来存储，构造链接可使用params参数:
        
        import rrequests data = { 'name': 'germey', 'age': 22 } r = requests.get("http://httpbin.org/get",params=data) print(r.text) 输出结果： { "args": { "age": "22", "name": "germey" }, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Connection": "close", "Host": "httpbin.org", "User-Agent": "python-requests/2.18.4" }, "origin": "180.165.241.94", "url": "http://httpbin.org/get?name=germey&age=22" }
        
        链接被自动构造成：http://httpbin.org/get?age=22&name=germey。
        
        网页的返回类型实际上是str类型，但特殊的是JSON格式的。如果想直接解析返回结果，得到一个字典格式，可以直接调用json()方法。例：
        
        import requests r= requests.get('http://httpbin.org/get') print(type(r.text)) >>> <class 'str'> print(r.json()) >>> {'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate',
        'Connection': 'close', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.18.4'},
        'origin': '180.165.241.94', 'url': 'http://httpbin.org/get'} print(type(r.json())) >>> <class 'dict'>
        
        调用 json ()方法，就可以将返回结果是 JSON 格式的字符串转化为字典。但需要注意的书，如果返回结果不是 JSON 式，便会出现解析错误，抛出 json.dec er. JSQ\JOecodeError 异常
    2. 抓取网页
      - 上面的请求链接返回的是 JSON 形式的字符串，如果请求普通的网页，则肯定能获得相应的内容了。以“知乎”→“发现”页面为例：
        
        import requests import re headers ={ 'User-agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)Applewebkit/537.36(KHTML,like Gecko)' 'Chrome/52.0.2743.116 Safari/537.36' } r= requests.get('https://www.zhihu.com/explore',headers=headers) pattern = re.compile('explore-feed.*?question_link.*?>(.*?)',re.S) titles=re.findall(pattern,r.text) print(titles)
        
        这里我们加入了 headers 信息，其中包含了 User-Agent 字段信息，也就是浏览器标识信息。如果不加这个，知乎会禁止抓取。接下来我们用到了最基础的正则表达式来匹配出所有的问题内容
    3. 抓取二进制数据
      - 在以上例子中，抓取的是知乎的一个页面，实际上它返回的是一个 HTML 文档。
      - 图片、音频、视频这些文件本质上都是由二进制码组成的，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。所以，想要抓取它们，就要拿到它们的二进制码。下面以 GitHub 的站点图标为例：
        
        import requests r=requests.get('https://github.com/favicon.ico') print(r.text) print(r.content)
        
        这里抓取的内容是站点图标，也就是在浏览器每一个标签上显示的小图标，这里打印了 Response 对象的两个属性，一个是 text，另一个是 content
        
        结果显示，r.text 出现了乱码，后者结果前稍有一个 b，这代表是 bytes 类型的数据。由于图片是二进制数据，所以前者在打印时转化为 str 类型，也就是图片直接转化为字符串，这理所当然会出现乱码。
      - 将刚才提取到的图片保存下来：
        
        import requests r=requests.get('https://github.com/favicon.ico') with open('favicon.ico','wb') as f: f.write(r.content)
        
        这里用了 open ()方法，第一个参数是文件名称，第二个参数代表以二进制写的形式打开，可以向文件里写入二进制数据。运行结束之后，可以发现在文件夹中出现了名为 favicon.ico 的图标.
      - 同样地，音频和视频文件也可以用这种方法获取
    4. 添加headers
      - 与 urllib.request 一样，我们也可以通过 headers 参数来传递头信息。比如，在“知乎”的例子中，如果不传递 headers ，就不能正常请求：
        
        import requests r= requests.get('https://www.zhihu.com/explore') print(r.text) 输出： 400 Bad Request "white">
        400 Bad Request
        
        openresty
        
        如果加上 headers 并加上 User-Agent 信息，那就没问题了。当然，我们可以在 headers 这个参数中任意添加其他的字段信息。
  3. POST请求
    1. 了解了最基本的 GET请求另外一种比较常见的请求方式是POST。使用 requests实现POST请求示例如下：
      
      这里还是请求 http://httpbin.org/post，该网站可以判断如果请求是 POST 方式，就把相关请求信息返回。
      import requests data = {'name':'germey','age':22} r= requests.post('https://httpbin.org/post',data=data) print(r.text) 输出： { "args": {}, "data": "", "files": {}, "form": { "age": "22", "name": "germey" }, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Connection": "close", "Content-Length": "18", "Content-Type": "application/x-www-form-urlencoded", "Host": "httpbin.org", "User-Agent": "python-requests/2.18.4" }, "json": null, "origin": "222.72.135.177", "url": "https://httpbin.org/post" }
      获得了返回结果，其中 form 部分就是提交的数据，这就证明 POST请求成功发送了。
  4. 响应
    1. 在上面的实例中，使用 text 和 content 获取了响应的内容。此外，还有很多属性和方法可以用来获取其他信息，如状态码、响应头、Cookies 等。例：
      import requests r= requests.get('http://www.jianshu.com') print(type(r.status_code),r.status_code) print(type(r.headers),r.headers) print(type(r.cookies),r.cookies) print(type(r.url),r.url) print(type(r.history),r.history) 输出： <class 'int'> 403 <class 'requests.structures.CaseInsensitiveDict'> {'。。。。‘} <class 'requests.cookies.RequestsCookieJar'> <class 'str'> https://www.jianshu.com/ <class 'list'> []
      headers 和 cookies 这两个属性得到的结果分别是 CaselnsensitiveDict 和 RequestsCookieJar 类型。状态码常用来判断请求是否成功，而 requests 还提供了一个内置的状态码查询对象 requests.codes。
2. 高级用法
  1. 文件上传
    - requests 可以模拟提交一些数据。假如有的网站需要上传文件，我们也可以用它来实现，例：
      import requests files= {'file':open('favicon.ico','rb')} r=requests.post('http://httpbin.org/post',files = files) print(r.text) 输出： { "args": {}, "data": "", "files": { "file": "data:application/octet-。。。。。。。 }, "form": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Connection": "close", "Content-Length": "6665", "Content-Type": "multipart/form-data; boundary=bd3497943aab4957a00081fa815f9fb2", "Host": "httpbin.org", "User-Agent": "python-requests/2.18.4" }, "json": null, "origin": "222.72.135.177", "url": "http://httpbin.org/post" }
      在前一节中我们保存了一个文件 favicon.ico，这次用它来模拟文件上传的过程。需要注意的是， favicon.ico 需要和当前脚本在同一目录下。
      
      网站会返回响应，里面包含 files 这个字段，而 form 字段是空的，这证明文件上传部分会单独有一个 files 字段来标识。
  2. cookies　
    - 实例获取cookies：
      import requests r=requests.get('https://www.baidu.com') print(r.cookies) for key,value in r.cookies.items(): print(key+'='+value) 输出： for .baidu.com/>]> BDORZ=27315
      首先调用 Cookies 属性可成功得到 Cookies，它是 RequestCookieJar 类型。然后用 items（）方法将其转化为元组组成的列表，遍历输出每一个 Cookie 的名称和值，实现 Cookie 的遍历解析
      
      也可以直接用 Cookie 来维持登录状态，以知乎为例来说明。首先登录知乎，将 Headers 中的 Cookie 内容复制下来（也可以替换成你自己的 Cookie，将其设置到 Headers 里面，然后发送请求）例：
      import requests #cookies复制页面内容 headers={ 'cookie':'tgw_l7_route=61066e97b5b7b3b0daad1bff47134a22; _zap=071c5b18-9263-4e48-94b4-6dd873eb96df; _xsrf=E3rYl2Ha3t7gHUZorSW4lNV5anb0pZ5q; d_c0="ALAgxXlQmw6PTneI9Sf4UudI5Aa_1gR6rWg=|1543721138"; capsion_ticket="2|1:0|10:1543721146|14:capsion_ticket|44:NDJmNWU1OTBjZmNmNDNmMmFlMzNhN2ZmYzI1OTlhNjQ=|98ede4acef94b134af08f731d6f8ffa86df1b050cfd62ca13561eedee40d6c89"; z_c0="2|1:0|10:1543721177|4:z_c0|92:Mi4xemtlakJnQUFBQUFBb0tHMWVWQ2JEaWNBQUFDRUFsVk4yZDBxWEFEZ3JBSEpBUjN4aDhhc2ctWnJUMDFJX04tQmJ3|12e6bb5be1674015891fd6d113432a80722aeeb90b2d596add445f1d9c106ff1"; tst=r; q_c1=370d2ccccb2f401a8fabe43e6c9e63ea|1543721178000|1543721178000', 'Host':'www.zhihu.com', 'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' } r=requests.get('https://www.zhihu.com',headers=headers) print(r.text)
      结果中包含了登录后的结果，这证明登录成功
      
      当然，可以通过 cookies 参数来设置，不过这样就需要构造 RequestsCookieJar 对象，而且需要分割一下 cookies。相对烦琐，不过效果是相同的，示例：
      import requests cookies='tgw_l7_route=61066e97b5b7b3b0daad1bff47134a22; _zap=071c5b18-9263-4e48-94b4-6dd873eb96df; _xsrf=E3rYl2Ha3t7gHUZorSW4lNV5anb0pZ5q; d_c0="ALAgxXlQmw6PTneI9Sf4UudI5Aa_1gR6rWg=|1543721138"; capsion_ticket="2|1:0|10:1543721146|14:capsion_ticket|44:NDJmNWU1OTBjZmNmNDNmMmFlMzNhN2ZmYzI1OTlhNjQ=|98ede4acef94b134af08f731d6f8ffa86df1b050cfd62ca13561eedee40d6c89"; z_c0="2|1:0|10:1543721177|4:z_c0|92:Mi4xemtlakJnQUFBQUFBb0tHMWVWQ2JEaWNBQUFDRUFsVk4yZDBxWEFEZ3JBSEpBUjN4aDhhc2ctWnJUMDFJX04tQmJ3|12e6bb5be1674015891fd6d113432a80722aeeb90b2d596add445f1d9c106ff1"; tst=r; q_c1=370d2ccccb2f401a8fabe43e6c9e63ea|1543721178000|1543721178000', jar =requests.cookies.RequestsCookieJar() headers={ 'Host':'www.zhihu.com', 'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36' } for cookie in cookies: key,value =cookie.split('=',1) jar.set(key,value) r=requests.get('https://www.zhihu.com',cookies =jar,headers=headers) print(r.text)
      首先新建了一个 RequestCookieJar 对象，利用 set（）方法设置好每个 Cookie 的 key 和 value，然后通过调用 requests 的 get()方法并传递给 cookies 参数。由于知乎本身的限制， headers 参数也不能少，只不过不需要在原来的 headers 参数里面设置 cookie 字段了。测试后，发现同样可以正常登录知乎。
  3. 会话维持
    - requests 中，如果直接利用 get()或 post()等方法的确可以做到模拟网页的请求，但是这实际上是相当于不同的会话，也就是说相当于你用了两个浏览器打开了不同的页面。
      Session，我们可以方便地维护一个会话，而且不用担心 cookies 的问题，它会帮我们自动处理好。示例：
      import requests S = requests.Session() S.get('http://httpbin.org/cookies/set/number/123456789') r=S.get('http://httpbin.org/cookies') print(r.text) 输出： { "cookies": { "number": "123456789" } }
      请求了一个测试网址 http://httpbin.org/cookies/set/number/ 1234567 89。请求这个网址时,可以设置一个 cookie，名称叫作 number，内容是123456789，随后又请求了 http：//httpbin.org/cookies, 此网址可以获取当前的 Cookies。利用 Session ，可以做到模拟同一个会话而不用担心 Cookies 的问题。它通常用于模拟登录成功之后再进行下一步的操作.
  4. SSL证书验证
    - requests 还提供了证书验证的功能。当发送 HTTP 请求的时候，它会检查 SSL 证书，我们可以使用 veri干y 参数控制是否检查此证书。其实如果不加 verify 参数的话，默认是 True，会自动验证。(12306 的证书没有被官方 CA 机构信任，会出现证书验证错误的结果）。
    - 如果请求一个 HTTPS 站点，但是证书验证错误的页面时，把 verify 参数设置为 False 即可。相关代码如下：
      import requests response = requests.get('https://www.12306.cn',verify =False) print(response.status_code)
      会发现报了一个警告它建议我们给它指定证书。我们可以通过设置忽略警告的方式来屏蔽这个警告：
      import requests from requests.packages import urllib3 urllib3.disable_warnings() #忽略警告 response = requests.get('https://www.12306.cn',verify =False) print(response.status_code)
      或者通过捕获警告到日志的方式忽略警告：
      import logging import requests logging.captureWarnings(True) #忽略警告 response = requests.get('https://www.12306.cn',verify =False) print(response.status_code)
  5. 代理设置
    - 对于某些网站，在测试的时候请求几次，能正常获取内容。但是一旦开始大规模爬取，对于大规模且频繁的请求，网站可能会弹出验证码，或者跳转到登录认证页面，更甚者可能会直接封禁客户端的 IP，为了防止这种情况发生，我们需要设置代理来解决这个问题
    - 这就需要用到 proxies 参数。可以用这样的方式设置示例（换成自己的有效代理试验）：
      import requests proxies = { 'http':'http://10.10.1.10:3128', 'https':'http://10.10.1.10:1080' } requests.get('https://www.taobao.com',proxies = proxies)
      若代理需要使用 HTTP Basic Auth，可以使用类似 http://user: password@host: port这样的语法来设置代理，示例如下：
      import requests proxies = { 'http':'http://user:[email protected]:3128/', } requests.get('https://www.taobao.com',proxies = proxies)
      除了基本的 HTTP 代理外， requests 还支持 SOCKS 协议的代理。
      首先，需要安装 socks 这个库：pip3 install ’requests[socks]'
      然后就可以使用 SOCKS 协议代理了，示例如下：
      import requests proxies = { 'http':'socks5://user:password@host:port', 'https':'socks5//user:password@host:port' } requests.get('https://www.taobao.com',proxies = proxies)
  6. 超时设置　　
    - 为了防止服务器不能及时响应，应该设置一个超时时间，即超过了这个时间还没有得到响应，就会报错。需要用到 timeout参数。这个时间的计算是发出请求到服务器返回响应的时间。示例如下：
      import requests r = requests.get('http://www.taobao.com',timeout = 1) print(r.status_code)
      可以将超时时间设置为 1 秒，如果 1 秒内没有响应，那就抛出异常。实际上，请求分为两个阶段，即连接（ connect ）和读取（ read ）。上面设置的 timeout 将用作连接和读取这二者的 timeout 总和。
      如果要分别指定，就可以传入一个元组：
      r = requests.get('https://www.tabao.com', timeout=(5,11,30))
      如果想永久等待，可以直接将 timeout 设置为 None，或者不设置直接留空，因为默认是 None.
  7. 身份认证
    - 在访问网站时，我们可能会遇到这样的认证页面，此时可以使用 requests 自带的身份认证功能，示例：
      import requests from requests.auth import HTTPBasicAuth r= requests.get('http://localhost:5000',auth=('username','password')) print(r.status_code)
      如果用户名和密码正确的话，请求时就会自动认证成功，会返回 200 状态码；如果认证失败，则返回 401 状态码。
  8. Prepared Request
    - 前面介绍 urllib 时，可以将请求表示为数据结构，其中各个参数都可以通过一个 Request 对象来表示。这在 requests 里同样可以做到，这个数据结构就叫 Prepared Request。例：
      from requests import Request,Session url= 'http://httpbin.org/post' data = { 'name':'germey' } headers={'User-agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)Applewebkit/537.36(KHTML,like Gecko)' 'Chrome/52.0.2743.116 Safari/537.36'} s=Session() req=Request('POST',url,data=data, headers=headers) prepped= s.prepare_request(req) r= s.send(prepped) print(r.text)
      这里引入一个Request，然后使用url、data、和headers参数构造一个Request对象，这时需要再2调用Session的prepa_request()方法转换为一个Prepare Request对象，再调用send()方法发送即可。
      
      有了 Request 这个对象，就可以将请求当作独立的对象来看待，这样在进行队列调度时会非常方便。肩而我们会用它来构造一个 Request 队列。
正则表达式
- 正则表达式是处理字符串的强大工具，它有向己特定的语法结构，实现字符串的检索、替换、匹配验证等等
1. 实例引入
  - 开源中国提供的正则表达式测试工具 http://tool.oschina.net/regex/，输入待匹配的文本，然后选择常用的正则表达式，就可以得出相应的匹配结果。
  - URL，开头是协议类型，然后是冒号加双斜线，最后是域名加路径。对于 URL来说，可以用下面的正则表达式匹配：
    [a-zA-z]+://(<\s]*
    用这个正则表达式去匹配一个字符串，如果这个字符串中包含类似 URL 的文本，那就会被提取出来。
    
    a-z 代表匹配任意的小写字母 \s 表示匹配任意的空白字符，＊就代表匹配前面的字符任意多个，这一长串的正则表达式就是这么多匹配规则的组合。
    
    Python 的 re 库提供了整个正则表达式的实现，利用这个库，可以在 Python 中使用正则表达式。在 Python 中写正则表达式几乎都用这个库。
2. match()
  1. match() 方法是从字符串的开头开始匹配的，一旦开头不匹配，那么整个匹配就失败
    - 一个常用的匹配方法——match（），向它传人要匹配的字符串以及正则表达式，就可以检测这个正则表达式是否匹配字符串。match（）方法会尝试从字符串的起始位置匹配正则表达式，如果匹配，就返回匹配成功的结果；如果不匹配，就返回 None。例：
      import re content = 'hello 123 4567 World_This is a Regex Demo' print(len(content)) result = re.match('^hello\s\d\d\d\s\d{4}\s\w{10}',content) #第一个参数传入正则表达式，第二个参数传入要匹配的字符串 print(result.group()) print(result.span()) 输出： 41 hello 123 4567 World_This (0, 25)
      这里首先声明了一个字符串，其中包含英文字母、空白字符、数字等。接下来，我们写一个正则表达式： ' Hello\s\d\d\d\s\d{4}\s\w{10} 用它来匹配这个长字符串。开头的 ^ 是匹配字符串的开头，也就是以 Hello 开头；然后＼s 匹配空白字符，用来匹配目标字符串的空格；＼d 匹配数字， 3 个＼d 匹配 123 ；然后再写 1 个＼s 匹配空格；后面还有 4567，我们其实可以依然用 4个＼d 来匹配，但是这么写比较烦琐，所以后面可以跟｛4｝代表匹配前面的规则 4 次，也就是匹配 4个数字；然后后面再紧接 1个空白字符，最后＼w{10｝匹配10个字母及下划线。我们注意到，这里其实并没有把目标字符串匹配完，不过这样依然可以进行匹配，只不过匹配结果短一点而已。
      而在 match（）方法中，第一个参数传入了正则表达式，第二个参数传入了要匹配的字符串。　
      
      group() 方法可以输出匹配到的内容，结果是 Hello 123 4567 World_This ，恰好是正则表达式规则所匹配的内容；span（）方法可以输出匹配的范围，结果是（0，25），这就是匹配到的结果字符串在原字符串中的位置范围。
  2. 匹配目标
    - 如果想从字符串中提取一部分内容，可以使用（）括号将想提取的子字符串括起来。（）实际上标记了一个子表达式的开始和结束位置，被标记的每个子表达式会依次对应每一个分组，调用 group（）方法传入分组的索引即可获取提取的结果。示例：
      import re content = 'Hello 1234567 World_This is a Regex Demo' result = re.match('Hello\s(\d+)\sWorld', content) print(result) print(result.group()) print(result.group(1)) print(result.span()) 输出： <_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'> Hello 1234567 World 1234567 (0, 19)
      这里我们想把字符串中的 1234567 提取出来，此时可以将数字部分的正则表达式用（）括起来，然后调用了 group(l）获取匹配结果。
      
      结果得到了 1234567。这里用的是 group(1）与 group（）有所不同，后者会输出完整的匹配结果，而前者会输出第一个被（）包围的匹配结果。假如正则表达式后面还有（）包括的内容，那么可以依次用 group(2）、group(3）等来获取。
  3. 通用匹配
    - 万能匹配，那就是 .＊（点星）。其中 .（点）可以匹配任意字符（除换行符），＊（星）代表匹配前面的字符无限次，所以它们组合在一起就可以匹配任意字符了。例：
      import re content = 'Hello 1234567 World_This is a Regex Demo' result= re.match('Hello.*Demo$',content) print(result) print(result.group()) print(result.span()) 输出： <_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'> Hello 1234567 World_This is a Regex Demo (0, 40)
      这里我们将中间部分直接省略，全部用＊来代替，最后加一个结尾字符串就好。可以看到， group （）方法输出了匹配的全部字符串，也就是说我们写的正则表达式匹配到了目标字符串的全部内容； span （）方法输出（0 ，40），这是整个字符串的长度　因此，我们可以使用．＊简化正则表达式的书写
  4. 贪婪与非贪婪
    1. 贪婪匹配
      - 在贪婪匹配下，＊会匹配尽可能多的字符正则表达式中．＊后面是 \d+，也就是至少一个数字，并没有指定具体多少个数字。因此，就尽可能匹配多的字符。例：
        
        import re content = 'Hello 1234567 World_This is a Regex Demo' result= re.match('He.*(\d+).*Demo$',content) print(result) print(result.group(1)) 输出： <_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'> 7
        
        这里就把 123456 匹配了，给＼d＋留下一个可满足条件的数字 7，最后得到的内容就只有数字 7 了。
    2. 非贪婪匹配
      - 非贪婪匹配的写法是．*？多了一个？。例：
        
        import re content = 'Hello 1234567 World_This is a Regex Demo' result = re.match('He.*?(\d+).*Demo$',content) print(result) print(result.group(1)) 输出： <_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'> 1234567
        
        这里只是将第一个 .＊改成了 .*?，转变为非贪婪匹配。贪婪匹配是尽可能匹配多的字符，非贪婪匹配就是尽可能匹配少的字符。当.＊？匹配到 Hello 后面的空向字符时，再往后的字符就是数字了，而＼d+ 恰好可以匹配，那么这里．*？就不再进行匹配，交给＼d＋去匹配后面的数字。所以这样．*？匹配了尽可能少的字符，＼d＋的结果就是 1234567 了。
        在做匹配的时候，字符串中间尽量使用非贪婪匹配，也就是用 .*?来代替 .＊，以免出现匹配结果缺失的情况。注意，如果匹配的结果在字符串结尾，.*？就有可能匹配不到任何内容了，因为它会匹配尽可能少的字符。　
  5. 修饰符
    - 正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。例（在字符串中加了换行符，正则表达式不变，来匹配的数字）：
      import re content = '''Hello 1234567 World_This is a Regex Demo''' result = re.match('He.*?(\d+).*?Demo$',content) print(result.group(1)) 输出：报错--NoneType
      因为．匹配的是除换行符之外的任意字符，当遇到换行符时，.*？就不能匹配了，所以导致匹配失败。这里只需加一个修饰符 re.S，即可修正。修改result：
      result = re.match('He.*?(\d+).*?Demo$',content,re.S)
      这个修饰符的作用是使．匹配包括换行符在内的所有字符。 re.S 在网页匹配中经常用到。因为 HTML 节点经常会有换行，加上它，就可以匹配节点与节点之间的换行了。　　　　
      - 修饰符：
        
        re.I：使匹配对大小写不敏感
        
        re.L：做本地化识别（ locale-aware ）匹配
        
        re.M：多行匹配，影响^和$
        
        re.S：使．匹配包括换行在内的所有字符
        
        re.U：根据 Unicode字符集解析字符。这个标志影响\w、\W、\b 和＼B
        
        re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解
  6. 转义匹配
    - 当遇到用于正则匹配模式的特殊字符时，在前面加反斜线转义一下即可例如 . 就可以用＼. 来匹配：
      import re content = '(百度)www.baidu.com' result= re.match('$百度$www\.baidu\.com',content) print(result) 输出： <_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>
3. search()
  - match （）方法是从字符串的开头开始匹配的，一旦开头不匹配，那么整个匹配就失败, search （）在匹配时会扫描整个字符串，然后返回第一个成功匹配的结果。例：
```
import re
content = 'Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'
result= re.search('Hello.*?(\d+).*?Demo',content)
print(result)
输出：
<_sre.SRE_Match object; span=(14, 54), match='Hello 1234567 World_This is a Regex Demo'>
```
    如果将search修改为match，返回值将为None。
    - 有一段待匹配的 HTML 文本，接下来写几个正则表达式实例来实现相应信息的提取：
      html = '''
      
      经典老歌列表
      
      一路上有你
      沧海一卢笑
      
      往事随风
      
      光辉岁月
      
      记事本
      
      但愿人长久
      
      '''
      ul 节点里有许多 li节点，其中 li 节点中有包含a节点，有不包含a节点，a节点还有一些相应的属性一一超链接和歌手名。提取 class为active的 li 节点内部的超链接包含的歌手名和歌名，此时需要提取第三个 li 节点下 a节点的 singer 属性和文本。此时正则表达式可以以 li 开头，然后寻找一个标志符 active ，中间的部分可以用 .*? 来匹配，接下来提取 singer 这个属性值，所以还需要写入 singer ＝"(.*?)"，这里需要提取的部分用小括号括起来，以使用 group() 方法提取出来，它的两侧边界是双引号。还需要匹配a节点的文本，其中它左边界是 >，右边界是 <\a> 然后目标内容依然用（.＊？）来匹配，所以最后的正则表达式就变成了：
      "(.*?)">(.*?)
      再调用 search （）方法，它会搜索整个 HTML 文本，找到符合正则表达式的第一个内容返回。另外，由于代码有换行，所以这里第三个参数需要传人 re.S 整个匹配代码：
      result = re.search('(.*?)'.html,re.S) if result: print(result.group(1),result.group(2))
      由于需要获取的歌手和歌名都已经用小括号包围，所以可以用 group （）方法获取。
      
      注意，在上面的两次匹配中， search （）方法的第三个参数都加了 re.S ，这使得＊？可以匹配换行，所以含有换行的 li 节点被匹配到了
4. findall()
  - findall（）方法了该方法会搜索整个字符串，然后返回匹配正则表达式的所有内容。
  - 如果想获取所有节点的超链接、歌手和歌名，可以将 search（）方法换成 findall（）方法。如果有返回结果的话，就是列表类型，所以需要遍历一下来依次获取每组内容。例：
```
results = re.findall('(.*?)',html,re.S)
print(results)
for result in results:
    print(result)
    print(result[0],result[1])
```
    返回列表的每个元素都是元组类型，用对应索引依次取出。如果只是获取第个内容，可以用 search （）方法当需要提取多个内容时，可以用于indall() 方法
5. sub()
  - 想要把一串文本中的所有数字都去掉，如果只用字符串的replace（）方法，那就太烦琐了，这时可以借助sub（）方法。例：
```
import re
content = '54aKyr5oiR54ix5L2g'
content = re.sub('\d+','',content)
print(content)
输出：
aKyroiRixLg
```
    这里只需要给第一个参数传入＼＋来匹配所有的数字，第二个参数为替换成的字符串（如果去掉该参数的话，可以赋值为空），第个参数是原字符串。上面的 HTML 文本中，如果想获取所有 li 节点的歌名，直接用正则表达式来提取可能比较繁琐，如果借助sub（）方法。可以先用 sub（）方法将a节点去掉，只留下文本，再利用 findall（）提取就好了。例：
```
html = re.sub('|','',html)
print(html)
results = re.findall('(.*?)
```

a节点经过 sub（）方法处理后就没有了，然后再通过 findall（）方法直接提取即可.

compile()

compile（）方法可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。例：
```
import re
content1 = '2016-12-15 12:00'
content2 ='2016-12-17 12:55'
content3 ='2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1=re.sub(pattern,'',content1)
result2=re.sub(pattern,'',content2)
result3=re.sub(pattern,'',content3)
print(result1,result2,result3)
输出：
2016-12-15  2016-12-17  2016-12-22 
```
有3个日期，分别将3个日期中的时间去掉，这时可以借助 sub（）方法。该方法的第一个参数是正表达式，但是这里没有必要重复写个同样的正则表达式，此时可以借助compile（）方法将正则表达式编译成一个正则表达式对象，以便复用。另外，compile（）还可以传入修饰符，如 re 等修饰符，这样在search（）、findall（）等方法中就不需要额外传了。所以，compile（）方法可以说是给正则表达式做了一层封装，以便我们更好地复用。

抓取猫眼电影排行

抓取分析
- 目标站点为 http: // aoyan.com/board/4，对网页进行解析，寻找规律

抓取首页

首先抓取第一页的内容。我们使用get_one_page（）方法，并给它传入url参数。将抓取的页面结果返回，再通过main（）方法调用。初步代码实现：

 1 import requests
 2 
 3 def get_one_page(url):
 4     headers={
 5         'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
 6     }
 7     response = requests.get(url,headers = headers)
 8     if response.status_code ==200:
 9         return response.text
10     return None
11 
12 def main():
13     url = 'http://maoyan.com/board/4'
14     html = get_one_page(url)
15     print(html)
16 
17 if __name__ == '__main__':
18     main()

可初步获取源代码，再对源代码进行解析

正则提取
- 在开发者模式下的 Network 监昕组件中查看源代码（在Network下的Doc选项下寻找查看原始请求得到码源）
  - 1. 一部电影信息对应的源代码是一个 dd 节点，用正则表达式来提取这里面的一些电影信息。首先，提取排名信息。而它的排名信息是在 class为board-index的 i 节点内，利用非贪婪匹配来提取 i 节点内的信息，正则表达式写为：
      .*?board-index.*？>(.*?)
    2. 随后提取电影的图片。后面有 a 节点，其内部有两个 img 节点。第二个 img 节点的 data-src 属性是图片的链接。这里提取第二个 img 节点的 data-src 属性，正则表达式改写下：
      .*?board-index.*?>(.*?).*?data-src="(.*?)"
    3. 再往后，提取电影的名称，它在后面的 p 节点内，class为name。所以，可以用 name 做一个标志位，然后进一步提取到其内 a 节点的正文内容，此时正则表达式改写：
      .*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)
    4. 再提取主演、发布时间、评分等内容时，都是同样的原理。最后，正则表达式写为：.......
    5. 这样一个正则表达式可以匹配一个电影的结果，里面匹配了 7个信息。接下来，通过调用 findall() 方法提取出所有的内容。
    6. 再定义解析页面的方法 parse_one_page（），主要是通过正则表达式来从结果中提取 ,LH我们想要的内容，实现代码：
      def parse_one_page(html): pattern=re.compile( '
      .*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
      .*?releasetime.*?>(.*?)
      .*?integer.*?>(.*?).*?fraction.*?>(.*?).*?
      ', re.S ) items=re.findall(pattern,html) for item in items: yield{'index':item[0], 'image':item[1], 'title':item[2].strip(), 'actor':item[3].strip()[3:] if len(item[3])>3 else '', 'time' :item[4].strip()[5:] if len(item[4])>5 else '', 'score':item[5].strip() +item[6].strip() }
写入文件
- 将提取的结果写入文件。这里通过 JSON 库的 dumps() 方法实现字典的序列化，并指定 ensure_ascii 参数为 False，这样可以保证输出结果是中文形式而不是 Unicode 编码。
```
def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
```
  通过调用 write_to_ file（）方法即可实现将字典写入到文本文件的过程，此处的 content 参数就是一部电影的提取结果，是一个字典。

整合代码块

import requests
import re
import json

def get_one_page(url):
    headers={
        'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
    }
    response = requests.get(url,headers = headers)
    if response.status_code ==200:
        return response.text
    return None

def parse_one_page(html):
    pattern=re.compile(
        '.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',
        re.S )
    items=re.findall(pattern,html)
    for item in items:
        yield{'index':item[0],
              'image':item[1],
              'title':item[2].strip(),
              'actor':item[3].strip()[3:] if len(item[3])>3 else '',
              'time' :item[4].strip()[5:] if len(item[4])>5 else '',
              'score':item[5].strip() +item[6].strip()
              }
        
def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        #print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_to_file(item)
        
if __name__ == '__main__':
    main()

分页爬取
1. 因为需要抓取的是 TOP100电影，所以还需遍历一下，给这个链接传入offset 参数，实现其他 90 部电影的爬取，此时添加调用：
```
if __name__ =='__main__':
    for i in range(10):
        main(offset= i*10)
```
  还需要将 main（）方法修改一下，接收一个offset值作为偏移量，然后构造 URL 进行爬取。
```
def main(offset):
    url = 'http://maoyuan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_to_file(item)
```

完整代码块

import json
import requests
import re
import time
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        headers={
        'User-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
    }
        response = requests.get(url,headers = headers)
        if response.status_code ==200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern=re.compile(
        '.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)
.*?releasetime.*?>(.*?)
.*?integer.*?>(.*?).*?fraction.*?>(.*?).*?',
        re.S )
    items=re.findall(pattern,html)
    for item in items:
        yield{'index':item[0],
              'image':item[1],
              'title':item[2].strip(),
              'actor':item[3].strip()[3:] if len(item[3])>3 else '',
              'time' :item[4].strip()[5:] if len(item[4])>5 else '',
              'score':item[5].strip() +item[6].strip()
              }

def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    for i in range(10):
        main(offset=i*10)
        time.sleep(1)

增加了一个延时等待为防止反爬虫。

转载于:https://www.cnblogs.com/Mack-Yang/p/9903332.html

你可能感兴趣的:(class 14 爬虫基础)

你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
刻意忽视孩子的成功，会让孩子迷失存在价值草原野狼战队
2020年5月22日星期五晴亲子日记2014级7班马驰翔爸爸893苏珊·福沃德在《中毒的父母》一书中提到：小孩子不会区分事实和笑话，他们会相信父母说的有关自己的话，并将其变为自己的观点。中国式的父母总是习惯用对比式的教育方式去“刺激”孩子，过分关注别人家的孩子，这种看似微不足道的习惯，却给孩子的未来造成着巨大的影响，其中最严重的一点就是用生命去证明自己存在的价值。在我身边有一个非常鲜活却让人痛心的
Matrix-Breakout 2 Morpheus靶场解题过程
信息收集目标探测靶机目标很明显就是61.139.2.141了扫描开放端口发现22、80、81访问端口主机访问80翻译一下，并没有发现什么审查源代码发现里面有一张图片，下载下来看看是否有图片的隐写wgethttp://61.139.2.141/trinity.jpegstegoveritas-itrinity.jpeg-o/home/kali/Desktop/11分解后发现什么都没有，里面的keep
Effective C++ 条款10：令operator=返回一个reference to *this 君鼎 C++c++
EffectiveC++条款10：令operator=返回一个referenceto*this核心思想：赋值操作符（operator=）应始终返回当前对象的引用（*this），以实现连锁赋值并保持与内置类型一致的语义。⚠️1.问题场景：违反连锁赋值语义classWidget{public:voidoperator=(constWidget&rhs){//错误：返回voidvalue=rhs.val
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
新家长必修课小贴士—如何做到无条件接纳 SDDE兰
2021年6月14日星期一《新父母晨报》【育儿知识】：怎样做才是无条件地接纳孩子呢？在孩子成长的过程当中，来自父母无条件地接纳，是孩子成长的安全基地，是孩子面对任何困难时候的底气。只有被父母无条件接纳的孩子，未来不管遇到什么样的境况，都会感觉有后盾，都能更快地去适应。怎样做才是无条件地接纳孩子呢？有两个非常重要的维度：️接纳孩子的感受✨一个孩子不管他的行为是可爱，还是令人讨厌，他其实都是为了寻求父
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
《家庭教育促进法》解读（14）落到实处方是真愿我们顺利平安
点击上方蓝字，关注我们吧！坚持写作第七十七天今天继续为大家解读和普及我国首部家庭类法律——《家庭教育促进法》的第四章“社会协同”。这一章是上一章“国家支持”的落脚点。第三十八条居民委员会、村民委员会可以依托城乡社区公共服务设施，设立社区家长学校等家庭教育指导服务站点，配合家庭教育指导机构组织面向居民、村民的家庭教育知识宣传，为未成年人的父母或者其他监护人提供家庭教育指导服务。个人认为这一点非常必要
[spring6: Mvc-网关]-源码解析
推荐阅读：[spring6:Mvc-函数式编程]-源码解析GatewayServerMvcAutoConfiguration@AutoConfiguration(after={HttpClientAutoConfiguration.class,RestTemplateAutoConfiguration.class,RestClientAutoConfiguration.class,FilterAu
新屋入伙柒月MissHuang
时隔7年了，2014-2021再次新屋入伙,感慨还是很大，最近总是收到很多小伙伴送来的礼物，或者是感人的信，自己也被自己感动和温暖突然想起老师的作业，编辑几个短信发给你想要感谢的人，多创造一些感动的时刻，时刻让自己开心和温暖，是的，就是要这股暖流，滋养自己感恩今天的到来，本来低调度过,但是还是收到很多小伙伴的祝福，感恩有你们
Java8 Stream流的sorted()的排序【正序、倒序、多字段排序】 Tony666688888 java windows 开发语言
针对集合排序，java8可以用Stream流的sorted()进行排序。示例Bean以下我们会使用这个Bean来做示例。publicclassOrder{privateStringweight;privateDoubleprice;privateStringdateStr;//忽略getter、setter、构造方法、toString}字段排序首先是比较器Comparator，形式如下：Compa
2018月3月31日星期六晴徐泽华花花
昨天只要了14个资源，教授说今天我们的资源量今天要放翻，还真的做到了，喜悦由内向外散发，很感谢大家一起努力的成果。今天在路上遇到煜珊，蒙蒙，凯丽，有观察她们要资源的方法，其实也差不多，没有很多技巧，多的就是出手率，还有是状态。要的就是状态，下周开启疯狂模式。
2018.5.30.松果148 April2005
写《像自由一样美丽》的封面《像自由一样美丽》，硬质的封面，一幅水粉画插图占据了整个版面。画面的右侧是一栋小小房屋，红色的三角形屋顶，棕色的方形屋子，对称的米黄色正方形，作为窗子，还有门，同样是再普通不过的方形，带着一点圆弧，小屋的右上角还有一个小小的烟囱，墨色晕染出的炊烟缓缓腾起。它腾起的速度是如此之慢，时断时续，以至于你会觉得这间小屋压根儿没有人居住，但也许，他们早已经没有可供烹饪的食物了，淡淡
柒姑娘复盘day 149 小柒姐姐
每个人都有自己的故事，一路上听过别人的故事，看着别人的经历，一步步走过属于自己的历程一同去成都学习的姑娘原本在政府机关工作，如今毅然辞去工作，孤身一人来到上海，准备开始自己人生新的起点，即使现在的我也没有这样的勇气我很欣赏，也很开心自己能有如此优秀的朋友，才学过萌姐的社会资本课，发现自己现在根本就没有好好经营自己的人脉，只懂得孤军奋战，这是我要改进的地方可以孤独，但不能没有人脉
收评：两市震荡沪指涨0.57%创业板指涨1.42% 光伏风能板块大涨甚念_3264
金融界网站9月14日讯早盘三大股指高开，盘初市场震荡上行，创业板指一度涨超2％，随后指数呈现震荡整理态势，临近午盘小幅回落；午后A股延续低迷表现，深成指两度翻绿，尾盘两市小幅上扬。截至收盘，沪指涨0.57％，报3278.81点，深成指涨0.61％，报13021.99点，创业板指涨1.42％，报2572.6点。两市成交额约7700亿元；北向资金净流入近20亿元。行业板块方面，环保工程、材料行业、仪器
全局修改GitLab14默认语言为中文
GitLab安装成功后默认语言是英语，只有登录后才能手动指定为中文，且这个配置只对自己生效，经查阅资料后，总结全局修改GitLab14默认语言为中文方法如下：0.进入容器如果你用Docker部署的GitLab，那么需要使用命令sudodockerexec-itgitlab/bin/bash进入容器1.修改rails配置文件打开/opt/gitlab/embedded/service/gitlab-
顺时针旋转N * N 的矩阵忆杰算法 Python 矩阵 python 算法
顺时针旋转题目描述数据范围实现逻辑代码实现题目描述有一个NxN整数矩阵，请编写一个算法，将矩阵顺时针旋转90度。给定一个NxN的矩阵，和矩阵的阶数N,请返回旋转后的NxN矩阵。数据范围0852789963'''#第N列逆序后变成第N行#或者是第i行变成第N-i-1列代码实现classSolution:#列转换为行defline2Row(self,mat,n):arr=[]forlineinrang
2018-05-14 水笔仔2017
刚买回就直接把塑料袋和蔬菜一起放冰箱，快来看看你中招了吗？说到保鲜很多人第一反应就是放冰箱。买多了的、吃剩的、想长期保存的，都一股脑儿塞进冰箱。不过为了卫生，大家还是会把东西都装好放置，熟食多数都在保鲜盒里，蔬菜一般就裹个塑料袋。其实，把果蔬连着超市塑料袋一起放进冰箱的这种做法弊大于利！超市塑料袋透气性不好。如果超市塑料袋内湿度太大而含氧量太少的话，袋内的果蔬会出现无氧呼吸，产生大量酒精；同时，还
14.tornado操作之应用Websocket协议实现聊天室功能孤寒者 Tornado框架从入门到实战 websocket tornado 聊天室功能实现 python
目录：每篇前言：1.什么是WebSocket（1）定义（2）优点（3）和HTTP对比（4）适用场景2.WebSocket关键方法3.本tornado项目中使用WebSocket（1）准备一个聊天室的页面：第一步：编写视图：第二步：编写接口：（app.py中加入以下接口！）第三步：编写前端页面：测试接口——响应OK！（2）使用WebSocket：（3）聊天室的聊天功能的最终实现：第一步：战前准备第二
生活方式：不多看，不多言，不多事，不多心。茶客途大管家
一悟N0.214丨昆剧《狮吼记》中讲了一个故事：有一年春天，苏东坡邀请好友陈季常去春游，期间安排了歌妓同行。陈季常的妻子柳氏得知此事后，大发雷霆，让陈季常在池边罚跪。苏东坡见状就想为好友鸣不平，不仅批评柳氏太过蛮横，还指责她多年无所出，应该让陈季常纳妾。一番话还没说完，柳氏怒火中烧，开口大骂道：“呸，你唆使我丈夫在外鬼混，现在还敢干涉我们家事......”随后就拿着棍子把他赶出了府，苏东坡没想到自
Spring Boot 2整合Druid的两种方式玩代码 spring boot 后端 java Druid
一、自定义整合Druid（非Starter方式）适用于需要完全手动控制配置的场景添加依赖（pom.xml）com.alibabadruid1.2.8org.springframework.bootspring-boot-starter-jdbc创建配置类@ConfigurationpublicclassDruidConfig{@Bean@ConfigurationProperties(prefix
运算符重载紫诺不离
+、-、*、/、++、--、==、！=、*->、&&、||...对于内置数据类型，编译器知道如何做运算，编译器不知道如何让两个类进行运算如果向让自定义数据类型进行+法运算，就需要重载+运算符在成员函数或者全局函数里，重写一个+法运算符的函数函数名operator+(){}运算符重载也可以提供多个版本加法运算符类名+operator+(){};例：成员函数classPerson{public:Per
日更300天-140 我的确是个不爱学习的人爱卡卡爱生活
这两天书又不背了，因为五十课是定好了回头开始复习，想不清楚是从前往后，还是从后往前，然后，就荒了三天了。还是明天开始一课一课从后往前默写好了，不能总这么晃着。这些天也没运动，虽然上秤并没有长斤两，可是感觉自己又胖了，拿吃的少了来安慰自己，不是个事儿啊，还是要运动呢，每周三次得有啊。周一大概学习了五个番茄钟，周二和今天全天没摸书，一边后悔一边坚决不摸书，一个好习惯的养成，需要多少次自我斗争啊，每次都
2018年投资总结小迷糊Lyla
新年的第三天，终于有空把所有的账户状况做个统计了，所有账户总体收益率为-14%左右，没错是负的啦，但是这样的结果我已经很满意了。毕竟上证综指、沪深300、中小板指、创业板指全年分别为-24.59％、-25.31％、-37.75％和-28.65％，我从2018年年初入市，年末能跑赢大盘，已经对自己满意啦。当然这期间多亏遇见了E大，可以说对我的投资学习过程中给了莫大的帮助，让我明白市场虽然是不能预测的
CMS垃圾回收器和G1垃圾回收器区别_g1cms垃圾回收器区别 2401_89191885 jvm
该类所有的实例都已经被回收，也就是Java堆中不存在该类的任何实例；加载该类的ClassLoader已经被回收；该类对应的java.lang.Class对象没有在任何地方被引用，无法在任何地方通过反射访问该类的方法。3.常见的垃圾回收算法1、Mark-Sweep（标记-清除算法）：（1）思想：标记清除算法分为两个阶段，标记阶段和清除阶段。标记阶段任务是标记出所有需要回收的对象，清除阶段就是清除被标
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

class 14 爬虫基础

400 Bad Request

经典老歌列表 一路上有你 沧海一卢笑 往事随风 光辉岁月 记事本 但愿人长久

你可能感兴趣的:(class 14 爬虫基础)

经典老歌列表

一路上有你
沧海一卢笑

往事随风

光辉岁月

记事本

但愿人长久