一只楚楚猫

python爬虫基础（二）

文章目录

- python爬虫
- - 1、异步爬虫
  - - 异步爬虫之多进程and多线程（不建议使用）
    - 异步爬虫之线程池and进程池（适当使用）
    - 单线程+异步协程（推荐）
    - - 补充：回调函数
      - 补充：yield
    - 多任务异步协程
    - aiohttp模块
  - 2、selenium
  - - 实例：爬取药监管理局信息
    - 实例：淘宝之自动化操作
    - iframe处理+动作链
    - 实例：EI检索
    - 无头浏览器+规避检测
    - 实例：百度
  - 参考

requests+selenium+scrapy

python爬虫基础（一）

python爬虫

1、异步爬虫

目的：在爬虫中使用异步实现高性能的数据爬取操作

requests.get()方法是一个阻塞的方法

异步爬虫之多进程and多线程（不建议使用）

多线程、多进程：

好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行
弊端：无法无限制的开启多线程或者多进程

异步爬虫之线程池and进程池（适当使用）

线程池、进程池：

好处：可以降低系统对进程或者线程创建销毁的一个频率，从而降低系统的开销
弊端：池中线程或进程的数量是有上限的

# 单线程
import time

def get_page(string):
    print(f"正在下载：{string}")
    time.sleep(2)
    print("下载成功")

names=['a','b','c','d']

start=time.time()

for i in range(len(names)):
    get_page(names[i])

end=time.time()
print(f"{end-start} second")

# 线程池

import time
from multiprocessing.dummy import Pool


def get_page(string):
    print(f"正在下载：{string}")
    time.sleep(2)
    print("下载成功")


names = ['a', 'b', 'c', 'd']

# 实例化线程池对象
pool=Pool(4)
pool.map(get_page,names)

单线程+异步协程（推荐）

event_loop：事件循环，相当于一个无限循环，我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行

coroutine：协程对象，我们可以将协程对象注册到事件循环中，它会被事件循环调用。我们可以使用async关键字来定义一个方法，这个方法在调用时不会立即被执行，而是返回一个协程对象

task：任务，它是对协程对象的进一步封装，包含了任务的各个状态

future：代表将来执行或还没有执行的任务，实际上和task没有本质区别

async：定义一个协程

await：用来挂起阻塞方法的执行

# 协程
import asyncio


async def request(url):
    print(f"正在请求的url是：{url}")
    print("请求成功")
    return url


# 被async修饰的函数，调用之后返回的一个协程对象
a = request('www.baidu.com')

# 创建事件循环对象
loop = asyncio.get_event_loop()

# 将协程对象注册到loop中，然后启动loop
loop.run_until_complete(a)

# task的使用
import asyncio


async def request(url):
    print(f"正在请求的url是：{url}")
    print("请求成功")
    return url


# 被async修饰的函数，调用之后返回的一个协程对象
a = request('www.baidu.com')

loop = asyncio.get_event_loop()
# 基于loop创建了一个task对象
task = loop.create_task(a)

loop.run_until_complete(task)

# future的使用
import asyncio


async def request(url):
    print(f"正在请求的url是：{url}")
    print("请求成功")
    return url


# 被async修饰的函数，调用之后返回的一个协程对象
a = request('www.baidu.com')

loop = asyncio.get_event_loop()

future = asyncio.ensure_future(a)

loop.run_until_complete(future)

# future的使用
import asyncio


async def request(url):
    print(f"正在请求的url是：{url}")
    print("请求成功")
    return url


# 被async修饰的函数，调用之后返回的一个协程对象
a = request('www.baidu.com')

def callback_func(task):
    # result返回的就是任务对象中封装的协程对象对应函数的返回值
    print(task.result())


# 绑定回调
loop = asyncio.get_event_loop()
future = asyncio.ensure_future(a)

# 将回调函数绑定到任务对象中
future.add_done_callback(callback_func)
loop.run_until_complete(future)

补充：回调函数

定义一个函数，然后将这个函数的函数名传递给另一个函数做参数，以这个参数命名的函数就是回调函数

例如：有一家旅馆提供叫醒服务，但是要求旅客自己决定被叫醒的方法。可以是客房打电话，也可以是派服务员去敲门。“叫醒”这个行为是旅馆提供的，但是叫醒的方式是由旅客决定并告诉旅馆的，也就是回调函数

def way(arg: str):
    print(arg)


def service(arg: str, callback):
    callback(arg)


service('请打电话叫我起床', way)

# 带额外状态信息的回调函数
def add(x, y):
    return x + y


class ResultHandler(object):
    def __init__(self):
        self.sequence = 0

    def handle(self, result):
        self.sequence += 1
        print(f"{self.sequence} got: {result}")


def apply_async(func, args, *, callback):
    result = add(*args)
    callback(result)


r = ResultHandler()
apply_async(add, (1, 2), callback=r.handle)

# 使用协程
def add(x, y):
    return x + y


def apply_async(func, args, *, callback):
    result = add(*args)
    callback(result)


def make_handler():
    sequence = 0
    while True:
        result = yield
        sequence += 1
        print(f"[{sequence}] got: {result}")


handler = make_handler()
next(handler)
apply_async(add, (2, 3), callback=handler.send)

补充：yield

yield可以看成return，但yield的作用不等于return。把yield看成return之后，再将yield看成生成器（generator）的一部分

def ret():
    print("starting")
    while True:
        value = yield 4
        print(f"value: {value}")


generator = ret()
print(next(generator))
print("divider")
print(next(generator))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KxoqzQ7A-1666160473164)(…/…/…/AppData/Roaming/Typora/typora-user-images/image-20221018191509824.png)]

1、程序开始执行以后，由于ret()函数中包含yield关键字，所以ret()函数并不会真正被执行（发现是不是和协程的特点很像），而是先得到一个生成器generator（一个class对象）

2、直到调用next()方法，ret()函数正式开始执行，先执行ret()函数中的print方法，然后进入while循环

3、程序遇到yield关键字，return出一个4（相当于是函数的一个返回值），然后程序停止，并没有对value执行赋值操作，此时next(generator)语句执行完成，输出的内容分别是"starting"和"4"

4、程序执行print(“divider”)

5、又开始执行下面的print(next(generator))，此时是从上面的next()方法执行结束之后程序停止的地方开始执行的，也就是执行对value的赋值操作，但这个时候赋值操作的右边是没有值的（因为刚才那个4已经return出去了），所以这个时候value赋值为None

6、然后程序继续执行while语句，再次遇到yield时，return出去4，程序停止执行

def ret():
    print("starting")
    while True:
        value = yield 4
        print(f"value: {value}")


generator = ret()
print(next(generator))
print("divider")
print(generator.send(2))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QyUtdCVV-1666160473165)(…/…/…/AppData/Roaming/Typora/typora-user-images/image-20221018192430087.png)]

send()方法可以向yield所在行的变量发送一个值，同时send()方法也包含next()方法的功能

7、程序执行generator.send(2)，程序会从yield关键字所在行继续向下执行，同时send会将2这个值赋值给value变量

8、send()方法中包含next()方法，所以程序会继续向下执行，直到程序再次遇到yield关键字，yield在返回后面的值后，程序再次暂停，直到再次调用next()方法或send()方法

对于生成器的相关概念可以参考：一篇文章入门python基础

多任务异步协程

进程控制：七状态模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-t0ueynk7-1666160473166)(…/…/…/AppData/Roaming/Typora/typora-user-images/image-20221018194609229.png)]

import asyncio
import time


async def request(url):
    print(f"正在下载：{url}")
    # 在异步协程中如果出现了同步模块相关的代码，就无法实现异步
    # time.sleep(2)

    # 异步模块
    # 在asyncio中遇到阻塞操作时必须进行手动挂起
    await(asyncio.sleep(2))
    print(f"下载结束：{url}")


urls = {
    'www.baidu.com',
    'www.sougou.com',
    'www.hnu.edu.cn'
}

# 任务列表：存放多个任务对象
futures = []

for url in urls:
    c = request(url)

    # future的使用
    future = asyncio.ensure_future(c)
    futures.append(future)

# 创建事件循环对象
loop = asyncio.get_event_loop()

# 需要将任务列表封装到wait中
loop.run_until_complete(asyncio.wait(futures))

aiohttp模块

对应的flask：

from flask import Flask
import time

app = Flask(__name__)


@app.route('/hyh')
def index_hyh():
    time.sleep(2)
    return "霍雨浩"


@app.route('/twt')
def index_twt():
    time.sleep(2)
    return "唐舞桐"


@app.route('/gyn')
def index_gyn():
    time.sleep(2)
    return "古月娜"


if __name__ == "__main__":
    app.run()

如果对flask不太了解，可以参考：Flask入门（一）、Flask入门（二）模板、flask入门（三）静态文件

import requests
import asyncio
import time
import aiohttp

start=time.time()
urls = [
    'http://127.0.0.1:5000/twt',
    'http://127.0.0.1:5000/hyh',
    'http://127.0.0.1:5000/gyn'
]

async def request(url):

    # requests.get发起的请求基于同步，必须使用基于异步的网络请求模块进行指定url的请求发送
    # aiohttp：基于异步网络请求的模块
    # response=requests.get(url=url)

    async with aiohttp.ClientSession() as session:

        # get()、post()
        # headers：UA伪装、params/data：参数处理、proxy="http://ip:port"
        async with await session.get(url) as response:
            # text()：返回字符串类型的响应数据
            # read()：返回二进制类型的响应数据
            # json()：返回json对象

            # 获取响应数据之前一定要使用await进行手动挂起
            text=await response.text()

            print(text)

futures=[]

for url in urls:
    c=request(url)
    future=asyncio.ensure_future(c)
    futures.append(future)

loop=asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(futures))

end=time.time()

print(f"总耗时：{end-start}")

可能会遇到的异常及处理办法：Python - Task exception was never retrieved & AttributeError: aexit

2、selenium

selenium模块和爬虫之间的关联：

便捷地获取网站中动态加载的数据
便捷实现模拟登录

selenium模块：基于浏览器自动化的模块：通过编写一些python的相关代码，让这些python代码表示一些行为动作，让这些python代码所表示的行为动作触发到浏览器中，然后浏览器根据代码的指示完成相关的自动化操作（测试中也会使用selenium，如果大家感兴趣，可以自行百度）

selenium的使用流程：

环境的安装：pip install selenium
下载浏览器的驱动程序（谷歌浏览器的驱动程序）
1. 驱动程序的路径：http://chromedriver.storage.googleapis.com/index.html
2. 驱动程序和浏览器的映射关系：http://blog.csdn.net/huilan_same/article/details/51896672；或者直接在浏览器地址栏输入：chrome://version/
实例化一个浏览器对象
编写基于浏览器自动化的操作代码

火狐浏览器对应的驱动程序：python+selenium+firefox使用与部署详解

import time
from selenium import webdriver
driver = webdriver.Firefox(executable_path='./driver/geckodriver.exe')
driver.get("https://www.baidu.com/")
time.sleep(2)
html = driver.page_source
print(html)
driver.quit()

实例：爬取药监管理局信息

国家药品监督管理局化妆品生产许可信息管理系统服务平台：http://scxk.nmpa.gov.cn:81/xk/

from selenium import webdriver
from lxml import etree
import time

driver = webdriver.Firefox(executable_path='./driver/geckodriver.exe')
driver.get("http://scxk.nmpa.gov.cn:81/xk/")
time.sleep(2)
# page_source：获取浏览器当前页面的页面源码数据
html = driver.page_source

tree=etree.HTML(html)

contents=tree.xpath('//*[@class="hzblist"]/li')

for content in contents:
    title=content.xpath('./dl/@title')
    print(title)

driver.quit()

实例：淘宝之自动化操作

# -*- coding: utf-8 -*-
# @Time    : 2022/10/19 9:23
# @Author  : 楚楚
# @File    : 25淘宝.py
# @Software: PyCharm
from selenium import webdriver
import time

browser=webdriver.Firefox(executable_path="./driver/geckodriver.exe")


browser.get("https://www.taobao.com/")

# 标签定位
search_input=browser.find_element_by_id('q')
# 标签交互
search_input.send_keys("IPhone13")

# 执行一组js程序
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')

# 点击搜索按钮
btn=browser.find_element_by_css_selector('.btn-search')
btn.click()

browser.get('https://www.baidu.com/')
time.sleep(2)
# 回退
browser.back()
time.sleep(2)
# 前进
browser.forward()


browser.quit()

基于浏览器自动化的操作代码：

发起请求：get(url)

标签定位：find系列的方法

标签交互：send_keys(‘xxx’)

执行js程序execute_script(js代码)

前进、后退：back()、forward()

关闭浏览器：quit()

iframe处理+动作链

# -*- coding: utf-8 -*-
# @Time    : 2022/10/19 12:11
# @Author  : 楚楚
# @File    : 26iframe.py
# @Software: PyCharm
import time

from selenium import webdriver
from selenium.webdriver import ActionChains

driver=webdriver.Firefox(executable_path='./driver/geckodriver.exe')

driver.get("https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")

# 如果定位的标签是存在于iframe标签中，则必须通过如下操作再进行标签定位
driver.switch_to.frame('iframeResult') # 切换浏览器标签定位的作用域
div=driver.find_element_by_id('draggable')

# 动作链
action=ActionChains(driver)
# 点击长按指定的标签
action.click_and_hold(div)
for i in range(5):
    # perform()：立即执行动作链操作
    action.move_by_offset(17,0).perform()
    time.sleep(0.5)

action.release()

driver.quit()

如果定位的标签存在于iframe标签中，则必须使用switch_to.frame(id属性值)切换浏览器的标签定位
动作链：from selenium.webDriver import ActionChains
- 实例化一个动作链对象：action=ActionChains(driver)
- click_and_hold(标签名称)：长按且点击操作
- move_by_offset(x,y)
- perform()让动作链立即执行
- action.release()释放动作链对象

实例：EI检索

from selenium import webdriver
from time import sleep

driver=webdriver.Firefox(executable_path='./driver/geckodriver.exe')
driver.get("https://www.engineeringvillage.com/search/quick.url")

search=driver.find_element_by_id("search-word-1")
search.send_keys("industrial design")

button=driver.find_element_by_id('searchBtn')
button.click()

sleep(10)

driver.quit()

无头浏览器+规避检测

from selenium import webdriver
# 实现无可视化界面的
from selenium.webdriver.firefox.options import Options
# 规避检测
from selenium.webdriver import FirefoxOptions
from selenium.webdriver import FirefoxProfile

# 无可视化界面的操作
firefox_options = Options()
firefox_options.add_argument("--headless")
firefox_options.add_argument("--disable-gpu")

# 实现规避检测（这种方法不晓得生不生效）
options = FirefoxOptions()
profile = FirefoxProfile()
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:105.0) Gecko/20100101 Firefox/105.0'
profile.set_preference("network.proxy.type", 4) #自动检测代理设置
profile.set_preference("dom.webdriver.enabled", False)  # 设置非driver驱动
profile.set_preference('useAutomationExtension', False)  # 关闭自动化提示
profile.update_preferences()  # 更新设置

driver = webdriver.Firefox(executable_path='./driver/geckodriver.exe', firefox_options=firefox_options, options=options,firefox_profile=profile)

# 无可视化界面（无头浏览器） phantomJs
driver.get("https://www.baidu.com")

print(driver.page_source)
with open('./baidu.html', 'w', encoding='utf-8') as file:
    file.write(driver.page_source)
driver.quit()

实例：百度

通用模板：

from selenium import webdriver
# 实现无可视化界面的
from selenium.webdriver.firefox.options import Options
# 规避检测
from selenium.webdriver import FirefoxOptions
from selenium.webdriver import FirefoxProfile

# 无可视化界面的操作
firefox_options = Options()
firefox_options.add_argument("--headless")
firefox_options.add_argument("--disable-gpu")

# 实现规避检测
options = FirefoxOptions()
profile = FirefoxProfile()
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:105.0) Gecko/20100101 Firefox/105.0'
profile.set_preference("network.proxy.type", 4) #自动检测代理设置
profile.set_preference("dom.webdriver.enabled", False)  # 设置非driver驱动
profile.set_preference('useAutomationExtension', False)  # 关闭自动化提示
profile.update_preferences()  # 更新设置

driver = webdriver.Firefox(executable_path='./driver/geckodriver.exe', firefox_options=firefox_options, options=options,firefox_profile=profile)

from selenium import webdriver
# 实现无可视化界面的
from selenium.webdriver.firefox.options import Options
# 规避检测
from selenium.webdriver import FirefoxOptions
from selenium.webdriver import FirefoxProfile

from lxml import etree

# 无可视化界面的操作
firefox_options = Options()
firefox_options.add_argument("--headless")
firefox_options.add_argument("--disable-gpu")

# 实现规避检测
options = FirefoxOptions()
profile = FirefoxProfile()
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:105.0) Gecko/20100101 Firefox/105.0'
profile.set_preference("network.proxy.type", 4)  # 自动检测代理设置
profile.set_preference("dom.webdriver.enabled", False)  # 设置非driver驱动
profile.set_preference('useAutomationExtension', False)  # 关闭自动化提示
profile.update_preferences()  # 更新设置

driver = webdriver.Firefox(executable_path='./driver/geckodriver.exe', firefox_options=firefox_options, options=options,
                           firefox_profile=profile)

driver.get("https://www.baidu.com/")

# search = driver.find_element_by_id("kw")
# search.send_keys("湖南大学")
#
# btn = driver.find_element_by_id("su")
# btn.click()

tree = etree.HTML(driver.page_source)
contents = tree.xpath('//*[@id="hotsearch-content-wrapper"]/li')
for content in contents:
    href = content.xpath('./a/@href')[0]
    title = content.xpath('./a/span[2]/text()')[0]
    print((href, title))

    driver.get(href)
    sub_tree = etree.HTML(driver.page_source)
    data = sub_tree.xpath(
        '/html/body/div[2]/div[4]/div[1]/div[3]/div[1]/div[1]/div/div/div/div/div[2]/p[1]/a/em/text()')[0]
    print(data)

参考

1、python3回调函数(callback)

2、彻底弄懂Python中的回调函数(callback)

3、python中yield的用法详解——最简单，最清晰的解释

4、python生成器和迭代器的区别

5、火狐真机绕过selenium检测

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc