Zen Zhu

【Python3网络爬虫】 urllib库的使用

（一）使用urllib

1.库的作用，让我们在使用时不需要关心底层，不再需要关心怎么做，而是只需要关心做什么。

2.urllib is a package that collects several modules for working with URLs:

urllib.request for opening and reading URLs
urllib.error containing the exceptions（例外） raised by urllib.request
urllib.parse for parsing(解析) URLs
urllib.robotparser for parsing robots.txt files

1.request模块

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication（摘要式身份验证；主机）, redirections（重导）, cookies and more.

模拟浏览器的一个请求发起过程，同时还带有处理授权验证，重定向，浏览器Cookies及其他内容

import urllib.request
response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode('utf-8')

print(type(response))——> 由此可见response是一个http.client.HTTPResponse。

对象——>方法：read() 、readinto()、getheader(name) 属性：msg,version,status 等会看一下文档

(1)urllib.requestr.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)方法

data参数表示数据，如果设置的话一定要转化成字节流编码格式，timeout的话是设置超时时间，可以用来捕捉获取服务器时间过久的异常，其他参数的话 context参数必须是ssl.SSLContext类型，用来指定SSL设置。至于这个SSL设置我也不知道是干什么的。 cafile和capath这两个参数是指CA证书和CA证书的路径。这个在请求Https时是有用的。

（2）urllib.request.Request() 如果请求中需要加入Headers等信息，就可以利用更强大的Request类来构建

用法：

import urllib.request

request = urllib.request.Request('http://www.baidu.com')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8')

Class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable = False.method = None)

第一个参数url用于请求url这是必传参数；第二个参数 data 如果要传必须是bytes类型，如果他是字典可以先用urllib.parse模块里的urlencode()编码；第三个参数headers是一个字典，就是请求头，我们可以用来伪装自己了，当然也可以用请求实例的add_headers()方法来添加。第四个参数origin_req_host指的是请求方的host名称或者IP地址；第五个参数　unverifiable表示这个请求是否是无法验证，默认是false，意思是有抓取权限。第六个参数method是一个字符串，用来指示请求使用的方法，比如GET　POST　和PUT等。

from urllib import request,parse

url = 'http://httpbin.org/post'
headers = {
    'User-Agent':'pig browser'
    'Host':'httpbin.org'
}
dict = {
    'name':'Zen zhu'
}
data = bytes(parse.urlencode(dict),encoding='utf-8')
req = request.Request(url=url,data=data,headers=headers,method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

(3)高级用法 (都不是很懂，所以看之后实践过程中使用吧)

更强大的工具Handler登场，可以理解为各种处理器，有专门处理登陆验证的，有处理cookies的，有处理代理设置的。利用它们，我们几乎可以做到HTTP请求中的所有事。

首先介绍的BaseHandler类，它是所有Handler的父类，它提供了最基本的方法，例如default_open()、protocol_request()等

接下来，就有各种Handler子类继承这个BaseHandler类，举例如下：

HTTPDefaultErrorHandler：用于处理HTTP响应错误，错误都会抛出HTTPError类型的异常。

HTTPRedirectHandler:用于处理重定向（什么是重定向）

HTTPCookieProcessor：用于处理Cookies

ProxyHandler:用于设置代理，默认代理为空

HTTPPasswordMgr：用于管理密码，它维护了用户名和密码的表

HTTPBasicAuthHandler:用于管理认证，如果一个链接打开时

1.验证

from urllib import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler,build_opener
from urllib.error import URLError

username = 'username'
password = 'password'
url = 'http://localhost:5000/'

p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None,url,username,password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)

try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

这里首先实例化了HTTPBasicAuthHandler对象，其参数是HTTPPasswordMgrWithDefaultRealm对象，它利用add_password()添加进去用户名和密码，这样就建立了一个处理验证的Handler。

接下来，利用这个Handler并使用build_open()方法构建一个Opener，这个Opener在发送请求时就相当于验证成功了。

接下来，利用Opener的open（）方法打开链接，就可以完成验证了。这里获取到的结果就是验证后面的页面源码内容。

2.代理

在做代理的时候免不了要使用代理，如果要添加代理，可以这样做：

from urllib.error import URLError
from urllib.request import ProxyHandler,build_opener 

proxy_handler = ProxyHandler({
'http':'http://127.0.0.1:9743'
'https':'http://127.0.0.1：9743'
})

opener = build_opener(proxy_handler)
try:
    response = opener.open('http://www.baidu.com')
    print(response.read().decode('utf-8')
except URLError as e:
    print(e.reason)

这里我们本地搭建了一个代理，它运行在9743端口上。

这里使用了ProxyHandler,其参数是一个字典，键名是协议类型。简直是代理链接，可以添加多个代理。

3.Cookies

import http.cookiejar,urllib.request

cookie = http.cookiejar.CookieJar()
handler =urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
    print(item.name+"="+item.value)

首先，我们必须声明一个CookieJar对象。接下来需要利用HTTPCookieProcessor来构建Handler，最后利用build_opener()方法构建出Opener,执行open()函数即可

接下来，我们让他以文本形式保存下来：

import http.cookiejar,urllib.request
filename = 'cookie.txt'
cookie =http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard = True,ignore_expires=True)

这时CookieJar要换成MozillaCookieJar，它在生成文件时会使用到，是CookieJar的子类，可以用来处理Cookies和文件相关的事件，比如读取和保存Cookies,可以将Cookies保存成Mozilla型浏览器的Cookies格式。

运行后会发现，出现了一个cookies.txt文件

另外LWPCookieJar同样可以读取和保存Cookies，但是保存的格式和MozillaCookieJar不一样。会保存成lwp格式的Cookies文件。

当然，也可以反过来去读取保存成的文件，这个就在之后实例玩的时候再多多训练吧。

(二)处理异常

异常处理是十分有必要的，如果不设置的话，可能目的还没达成，程序就出错跳出了。

urllib的error模块定义了由request模块产生的异常。如果出现了问题，request模块便会抛出error模块中定义的异常。（这个模块自己为自己做好了全部）

1.URLError类

URLEreor类来自urllib库的error模块。它继承自OSError类，是error异常模块的基类，由request模块生的异常都可以通过捕获这个类来处理。它具有一个reason属性，即返回错误的原因。

from urllib import request,error
try:
    response = request.urlopen('https://cuiqingcai.com/index.htm')
except error.URLEorror as e:
    print(e.reason)

2.HTTPError

它是URLEorror的子类，专门处理HTTP请求错误，比如认证请求失败等。由如下三个属性

1.code:返回HTTP状态码 2.reason同父类一样，用于返回错误原因。 3.headers返回请求头

（三）解析链接

parse模块，定义了处理URL的标准接口，例如如何实现URL各种部分的抽取合并以及链接转换。支持的链接类型涉及大部分协议。

1.urlparse() 该方法实现了URL的识别和分段(useer-->user)

from urllib.parse import urlparse

result = urlparse('http://www.baidu.con/index.html;useer?id=5#comment')
print(type(result),result)

://前面的就是schem,代表协议；第一个/符号前的就是netloc,即域名，后面就是path,即访问路径；分号；后面params,代表参数；问号？后面是查询条件query，一般用作GET类型的URL;#后面是锚点，用于直接定位页面内部的下拉位置。

所以一个标准的链接格式：schem://netloc/path;params?query#fragment（这些也是属性）

urllib.parse.urlparse(urlstring,scheme=' ',allow_fragment=True) -->(API用法)

urlstring:这是必填项，即待解析的URL。scheme :这个是默认协议，如果没有则会默认https

allow_fragment 默认是false 这样fagment部分为空。

2.urlunparse()

from urllib.parse import urlunparse

data = ['http','www.baidu.com','index.htm','user','a=6','comment']

print(urlunparse(data))这里data用了列表类型，当然可以选用其他类型，比如元组或者特定的数据结构。

3.urlsplit()

这个方法与urlparse()方法非常相似，只不过它不再单独解析params这一部分，只返回5个结果params会合并入path中。

4.urlunsplit()

将链接连接起来。

5.urljoin()

有了urlunparse()与urlunsplit()两个方法，他们可以完成链接的拼合，不过前提是必须特定的长度，链接的每一部分都要分开。

生成链接的另一种方法urljoin()方法，特可以提供一个base_url作为第一个参数，将新的链接作为第二个参数，该方法会分析base_url的scheme、netloc、path这三个内容并对新链接缺失的部分进行补充，最后返回结果。

from urllib.parse import urljoin

print(urljoin('http://www.baidu.com','FAQ.html'))
print(urljoin('http://www.baidu.com','https;//cuiqingcai.com/FAQ.html'))

和书上讲的好像不一样哎。

可以发现base_url提供了三项内容scheme、netloc和path.如果这三项在新的链接里不存在，就予与补充；如果新的链接存在，就使用新的链接的部分。而base_url中的params、query、和fragment是不起作用的。

通过urljoin()方法，可以实现链接的解析拼合和生成。

6.urlencode()

它在构造GET请求参数的时候非常有用

from urllib.parse import urlencode

params = {
'name':'Zen',
'age':20
}
base_url = 'http://www.baidu.com'
url = base_url+urlencode(params)
print(url)

7.parse_qs()

有了序列化就一定会反序列化。如果我们有一串GET请求参数，利用parse_qs()方法，就可以转化回字典。

8.parse_qsl()

这个方法可以用于将参数转换成元组组成的列表

9.quote() 该方法可以将内容转化为URL编码格式。URL中带有中文参数时，有时可能会导致乱码的问题，此时用这个方法可以将中文字符转化为URL编码。

from urllib.parse import quote

keyword = '壁纸'
url = 'https://wwww.baidu.com/s?wd'+quote(keyword) )
print(url)

10.unquote() 该方法用于解码。

（四）分析Robots协议

利用urllib的robotparser模块，我们可以实现网站Robots协议的分析。

1.Robots协议

Robots协议也称作爬虫协议机器人协议，它的全名叫做网络爬虫排除标准，用来告诉爬虫和搜索引擎哪些页面可以抓取。它通常是一个robots.txt文件

当搜索爬虫访问一个站点时，它首先会检查这个站点根目录下是否存在robots.txt文件，如果存在搜索爬虫会根据其定义的爬取范围来爬取。如果没有找到这个文件，搜索爬虫便会访问所有可直接访问的页面。

User-agent:*

Disallow:/

Allow:/public/

User-agent 描述了爬虫的名称，设置为*表示都可以

Disallow指定了不允许抓取的目录，这里不允许抓取所有的

Allow 一般和Disallow一起使用，用来排除某些限制，这样我们表示所有的页面都不可以抓取。但是可以抓取public目录。

2.爬虫名称

搜索引擎里面基本上都是有一个爬虫名称

3.rbobotparser

了解Robots协议后，就可以使用robotsparser模块来解析robots.txt 。该模块还提供了一个类RobotFileParse,它可以根据某网站的robots.txt文件来判断一个爬虫爬取是否有权限来爬取这个网页。

用起来非常简单，只需要在构造方法中传入robots.txt的链接即可。urllib.robotparse.RobotFileParse(url=' ')

几个常用方法：

set-url():用来设置robots.txt文件的链接;

read()读取robots.txt文件并进行分析。这个方法不hi返回任何内容，但是执行了读取操作。

parse()用来解析robots.txt文件，传入的参数是robots.txt某些行的内容

can_fetch() 该方法传入两个参数，第一个是User-agent 第二个是要抓取的URL 返回的是该搜索引擎是否可以抓取。

mtime():返回的是上次抓取和分析robots.txt的时间，这对于长时间分析和抓取的搜索爬虫是很有必要的，你可能需要定期检查来抓取最新的robots.txt

modified（）它同样对长时间分析和抓取的搜索爬虫有帮助，将当前时间设置为上次抓取和分析robots.txt的时间

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('http://www.jianshu.com/robots.txt')
rp.read()
print(rp.can_fetch('*','http://jianshu,com/p/b67554025d7d'))

以简书为例，判断是否可以被抓取。

学习urllib库的过程中，感觉这个库很强大，基本上就可以进行很多爬取了。不过学的还不是很熟练，最近想做一个爬取学校教务在线学生照片的爬虫。去找一些教程看看吧。

等之后做好了就专门写一篇博客吧。

哈哈哈，爬虫慢慢的来。

lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
LLaMA-Factory微调教程1：LLaMA-Factory安装及使用 Cachel wood LLM和AIGC llama python 开发语言 react.js javascript 前端 microsoft
文章目录环境搭建LLaMA-Factory安装教程模型大小选择环境搭建Windows系统RTX4060Ti（16G显存）python3.10cuda=12.6cudnntorch==2.7.1+cu126torchvision==0.22.1+cu126torchaudio==2.7.1+cu126PSC:\Users\18098>nvidia-smiTueJul2201:52:192025+<
python3中，pycharm中怎么连接数据库 weixin_33736832 数据库 python 开发工具
因为python3现在还不能直接连接数据库，所有如果想连接，就只能通过以下方法：在APP中的，__init__.py中，添加以下代码就可以：importpymysqlpymysql.install_as_MySQLdb()当然前提是，那就的在setting.py中连接数据库添加所连接的mysql数据库的详细信息，如下：DATABASES={'default':{'ENGINE':'django.d
Python【一】Python全方位知识指南程序员_CLUB python 开发语言
目录背景：为什么Python成为开发者必备技能？‌‌一、Python是什么？‌‌二、Python能做什么？六大核心应用场景‌‌1.自动化办公‌‌2.网络爬虫‌‌3.数据分析‌‌三、零基础入门Python：环境搭建与学习路径‌‌1.环境搭建（Windows/Mac详细步骤）‌2‌.基础语法速成（7天掌握）‌四、实战项目推荐（*****）‌‌五、学习建议与避坑指南（新手常见错误）‌六、总结：**背景：
Python3.14正式支持Free Threaded版本！程序元元 Python GIL 并发多线程性能优化 Python3.14 技术突破
Python社区迎来了划时代的突破：Python3.14在beta3版本中正式将Free‑Threaded（无GIL）构建列为受支持选项，不再只是“实验性”功能。这意味着困扰我们多年的GIL（全局解释器锁）问题，终于迈出了实质性的一步！这一变化标志着PEP 703（移除GIL）从之前的“可选无GIL”项目，正式转入PhaseII：Free‑Threaded构建进入稳定支持阶段。需要注意的是，目前它
十年爬虫经验告诉你爬虫被封怎么办 congqian8750 爬虫
十年爬虫经验告诉你爬虫被封怎么办现在很多站长都会有抓取数据的需求，因此网络爬虫在一定程度上越来越火爆，其实爬虫的基本功能很简单，就是分析大量的url的html页面，从而提取新的url，但是在实际操作中通常都会遇到各种各样的问题，比如说抓取数据的过程中需要根据实际需求来筛选url继续爬行；或者说为了能正常爬取，减少别人服务器的压力，你需要控制住爬取的速度和工作量···但是即便再小心，很多时候也会遇到
Scrapy 爬虫 IP 被封问题的解决方案杨胜增 scrapy 爬虫 tcp/ip
Scrapy爬虫IP被封问题的解决方案在使用Scrapy进行网络爬虫开发时，IP被封是一个常见的问题。当爬虫频繁地向目标网站发送请求时，目标网站可能会检测到异常流量，并将爬虫的IP地址加入黑名单，导致后续请求无法正常访问。本文将详细介绍Scrapy爬虫IP被封问题的原因及解决方案。问题描述在运行Scrapy爬虫时，可能会遇到以下类似的情况：请求返回403Forbidden错误，表示服务器拒绝了请求
Python requests设置代理的3种方法爱睡觉的圈圈代理服务 python 网络开发语言代理模式
在进行网络爬虫或数据采集时，经常需要使用代理来避免IP被封或突破访问限制。本文介绍Pythonrequests库设置代理的3种常用方法。方法一：基础代理设置最简单的代理设置方式：importrequests#设置代理proxies={'http':'http://proxy_ip:port','https':'https://proxy_ip:port'}#发送请求response=request
Python爬虫实战：研究flanker相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 flanker
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈现出指数级增长的趋势。如何从海量的网页数据中高效地获取有价值的信息，成为了一个重要的研究课题。网络爬虫作为一种自动获取网页内容的技术，能够帮助用户快速、准确地收集所需的信息，因此在信息检索、数据挖掘、舆情分析等领域得到了广泛的应用。Flanker技术是一种基于文本分析的信息提取技术，它能够从非结构化的文本中识别和提取出特定类型的信
Python BeautifulSoup 解析网页按钮元素 PythonAI编程架构实战家 Python人工智能与大数据 Python编程之道 python beautifulsoup 开发语言 ai
PythonBeautifulSoup解析网页按钮元素：从基础原理到工程实践的深度解析关键词BeautifulSoup、HTML解析、按钮元素定位、DOM树遍历、CSS选择器、网络爬虫、前端自动化摘要本文系统解析使用PythonBeautifulSoup库定位和提取网页按钮元素的全流程技术方案。从HTML文档的底层结构出发，结合BeautifulSoup的核心解析机制，覆盖从基础概念到高级工程实践
Python网络爬虫技术深度解析：从入门到高级实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 easyui scrapy
1.爬虫技术概述网络爬虫（WebCrawler）是一种自动化程序，通过模拟人类浏览行为从互联网上抓取、解析和存储数据。根据应用场景可分为：通用爬虫：如搜索引擎的蜘蛛程序聚焦爬虫：针对特定领域的数据采集增量式爬虫：只抓取更新内容深层网络爬虫：处理需要交互的动态内容2.2024年Python爬虫技术栈技术分类推荐工具适用场景基础请求库requests,httpx静态页面请求解析库BeautifulSo
python3基础语法梳理(三) 幼稚园的山代王 python python 开发语言
接上一篇博客猜数字小游戏-Python版游戏规则：系统随机生成一个1到10的整数玩家输入猜测的数字使用if语句判断玩家猜得是否正确提示“猜对了”或“太大/太小了”importrandomsecret_number=random.randint(1,10)attempts=0#尝试次数print("欢迎来到猜数字游戏！")print("我已经想好了一个1到10之间的数字。")print("快来猜一猜
vscode 找不到python解释器,VS Code找不到python 3解释器 miao君 vscode 找不到python解释器
IaminstallingPython3.7.2forthefirsttime,andI'musingtheVSCodepythonextension.WhenIrunpython-VIgetPython2.7.10whichisnotcorrect!WhenIselecttheusr/local/bin/python3interpreterinVSCodeIgetthiserrorwhenrun
FastAPI的介绍，特性，及几个常用案例数据知道 python3案例和总结 fastapi python 开发语言
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一.介绍二.关键特性三.几个常用案例3.1第一个案例3.1.2使用浏览器访问:[http://127.0.0.1:8000/items/5?q=somequery](http://127.0.0.1:8000/items/5?q=somequery)3.1.3你已经创建了一个具有以下功能的API：3.1.4交互式API文档3.2自定义响
零基础入门：用 Tkinter 打造多功能计时器安东尼唐 python 青少年编程用户界面
零基础入门：用Tkinter打造多功能计时器前言：关于本教程本教程将带你从零开始理解并实现一个包含倒计时和秒表功能的多功能计时器。我们会逐行解析代码逻辑，即使你没有Tkinter基础，也能通过跟随教程掌握GUI程序的开发思路。所有代码保持原样，你只需专注于理解每个部分的作用即可。准备工作：环境与工具在开始前，请确保你的电脑已安装：Python3.x（推荐3.7及以上版本）任意代码编辑器（如VSCo
PythonGUI之TKinter实现学生信息管理系统（Python+TKinter+CSV读写操作）安东尼唐 python 开发语言
学生信息管理系统（Python3.10+TKinter）项目介绍本教程将带领大家使用Python的TKinter库制作一个简单的学生信息管理系统，该系统可以实现学生信息的展示、添加和删除功能，数据将保存在CSV文件中。即使你是编程零基础，只要按照教程一步步操作，也能完成这个项目。环境准备安装Python：前往Python官网下载并安装Python（建议安装Python3.7及以上版本），安装时记得
anaconda修改python版本发际线的忧伤 python 开发语言
Anaconda是一个流行的Python发行版，提供了一个方便的方式来安装Python和许多Python包。Anaconda默认提供了Python2和Python3版本，但有时候我们需要使用不同的Python版本，本文将介绍如何在Anaconda中修改Python版本。一、查看当前Python版本在Anaconda中，我们可以使用conda命令来查看当前Python版本。打开终端或命令提示符，输入
Python--Anaconda如何切换python版本
在Anaconda中切换Python版本可以通过以下几种方法实现：方法1：创建新环境并指定Python版本创建新环境（推荐）：condacreate-n新环境名python=版本号例如创建Python3.8的环境：condacreate-npy38_envpython=3.8激活新环境：condaactivatepy38_env#Windows/Linux/macOS(conda4.6+)验证版本
盘点一个Python网络爬虫问题皮皮_f075
大家好，我是皮皮。一、前言前几天在Python最强王者群【刘桓鸣】问了一个Python网络爬虫的问题，这里拿出来给大家分享下。image.png他自己的代码如下：importrequestskey=input("请输入关键字")res=requests.post(url="https://jf.10086.cn/cmcc-web-shop/search/query",data={"sortColu
在 Windows 使用 Nginx/HAProxy 实现负载均衡程序员乐逍遥系统架构专题 windows nginx 负载均衡
在本实验中，我们将在Windows系统上使用Python编写一个TCP服务器，并启动两个服务实例。然后使用Nginx或HAProxy作为负载均衡器，将来自多个客户端的请求分发到这两个服务实例上，验证负载均衡效果。环境准备操作系统：Windows10/Windows11Python3.x（建议使用Python3.10+）NginxforWindows或HAProxyforWindows10个客户端（
【Python-网络爬虫】爬虫的基础概念介绍敖云岚 python 爬虫开发语言
目录一、爬虫的介绍1.1爬虫的概念1.2爬虫的作用1.搜索引擎数据索引2.商业数据采集与分析3.舆情监控与社交分析4.学术研究与数据挖掘5.信息聚合与服务优化二、爬虫的分类三、爬虫的基本流程3.1基本流程3.2Robots协议一、爬虫的介绍1.1爬虫的概念爬虫的概念：通过模拟浏览器发送请求，从而获取响应1.2爬虫的作用1.搜索引擎数据索引搜索引擎如Google、百度等依赖爬虫技术构建庞大的网页索引
【算法竞赛学习笔记】基础算法篇：枚举
前言本文为个人学习的算法学习笔记，学习笔记，学习笔记，不是经验分享与教学，不是经验分享与教学，不是经验分享与教学，若有错误各位大佬轻喷(T^T)。主要使用编程语言为Python3，各类资料题目源于网络，主要自学途径为蓝桥云课，侵权即删。算法思想枚举即通过遍历所有可能情况得到目标结果（暴力求解）。将问题空间划分为一系列离散的状态,并通过遍历这些状态来寻找解决方案。题目特征求解多个数，多种情况，有限制
【算法竞赛学习笔记】基础算法篇：二分悠哉悠哉愿意算法学习笔记学习笔记 python 算法
前言本文为个人学习的算法学习笔记，学习笔记，学习笔记，不是经验分享与教学，不是经验分享与教学，不是经验分享与教学，若有错误各位大佬轻喷(T^T)。主要使用编程语言为Python3，各类资料题目源于网络，主要自学途径为蓝桥云课，侵权即删。算法思想用中间值逼近某个值求解无理数根号n，可先确定一个范围，通过中点不断缩小这个范围从而估算无理数的值。二分法：每次将搜索范围缩小一半，可以在O(logn)时间内
Python 3.7.2官方文档全解析：从入门到精通泓三宝
本文还有配套的精品资源，点击获取简介：Python3.7.2官方文档是一个全面的资源，为初学者和有经验的开发者提供Python编程语言的所有特性和功能。文档详尽地介绍了Python的基础语法、面向对象编程、异常处理、标准库、文件操作、模块和包、生成器、上下文管理器、函数式编程、类型注解、异步编程、元编程、性能分析和错误调试等多个方面的关键知识。学习这些内容能够帮助开发者理解和掌握Python编程的
【Python深入浅出㉛】Python3多线程：解锁高效并发编程奔跑吧邓邓子 Python深入浅出 python 开发语言多线程
目录一、引言二、Python3多线程基础（一）线程与进程的区别（二）多线程的优势（三）Python3中的线程模块三、Python3多线程的使用方法（一）函数式创建线程（二）类式创建线程（三）线程的基本方法四、线程同步与锁机制（一）为什么需要线程同步（二）锁的类型与使用（三）死锁问题及解决方法五、多线程应用场景（一）网络编程（二）文件处理（三）数据分析六、多线程常见问题与解决方案（一）GIL（全局解
机器学习实战笔记（四）：决策树（Python3 实现） max_bay 机器学习实战笔记机器学习实战决策树 python
1决策树的构造1.1决策树的特点优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：数值型和标称型。在构造决策树时，我们需要解决的第一个问题就是，当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征，划分出最好的结果，我们必须评估每个特征。完成测试之后，原始数据集就被划分为几个数据子集。这些数据子集会分
壁纸管理 API 文档 william️_Aaron python flask fastapi
壁纸管理API文档环境：Python3.9+、Flask2.x、PyMySQL1.x运行：pythonapp.py监听：http://0.0.0.0:5000通用响应格式{"code":200,//业务码：200成功，201创建成功，400参数错误，404资源不存在，500服务器错误"message":"success","data":{...},//具体数据"total":10//部分列表接口返
Python库 python-pyper 的详细使用（优秀的并发数据处理框架）数据知道 python3案例和总结 python 开发语言
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一、Python-pyper概述1.1Python-pyper介绍1.2安装1.3核心概念1.4的核心优势：1.5典型应用场景二、基础使用2.1创建简单流水线2.2并发执行三、高级使用3.1多阶段流水线3.2批处理模式3.3错误处理3.4执行器配置-使用不同后端3.5自定义执行器3.6数据ETL流程3.7日志处理系统3.8动态批处理3.
「数据采集与网络爬虫（使用Python工具）」【数据分析全栈攻略：爬虫+处理+可视化+报告】
-第103篇-Date:2025-06-01Author:郑龙浩/仟墨文章目录「据采集与网络爬虫」【使用工具：Python】一数据采集1数据采集综述（1）基本介绍（2）数据目标源（3）采集方式（4）数据形式2互联网数据采集（重点）（1）什么是网络爬虫？（2）常见的网络爬虫和爬虫采集器（3）爬虫的流程（4）反爬虫技术3数据采集基本流程二HTTP请求和响应（1）HTTP（HypertextTransf
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

【Python3网络爬虫】 urllib库的使用

你可能感兴趣的:(Python3网络爬虫)