搜索引擎技术

Python爬虫进阶：搜索引擎爬虫的并发控制

关键词：Python爬虫、并发控制、搜索引擎、异步IO、速率限制、反爬机制、分布式爬虫

摘要：本文深入探讨搜索引擎爬虫的并发控制核心技术，从基础原理到工程实践逐层解析。通过对比多线程、多进程、异步IO等并发模型的适用场景，结合令牌桶、漏桶等流量控制算法，演示如何在保证爬取效率的同时规避反爬机制。文中包含完整的Python异步爬虫实现案例，结合Redis分布式队列实现任务调度，覆盖开发环境搭建、核心代码解析、性能优化等全流程。适合有一定爬虫基础的开发者提升大规模数据爬取的工程能力。

1. 背景介绍

1.1 目的和范围

在搜索引擎构建中，爬虫的并发控制直接影响数据获取效率、目标网站负载以及反爬对抗能力。本文聚焦以下核心问题：

如何平衡并发量与爬取稳定性
不同并发模型的适用场景与实现差异
流量控制算法的工程实现
分布式环境下的任务协调机制

通过理论分析结合实战代码，提供从单机到分布式架构的完整解决方案。

1.2 预期读者

具备Python基础和爬虫经验的开发者
希望优化爬虫性能的后端工程师
研究搜索引擎技术的学生与科研人员

1.3 文档结构概述

核心概念：解析搜索引擎爬虫架构与并发控制要素
技术原理：对比多线程/多进程/异步IO，详解流量控制算法
实战实现：基于aiohttp的异步爬虫与Redis分布式队列
应用与优化：反爬应对策略与性能监控方案
工具资源：推荐高效开发工具与前沿学习资料

1.4 术语表

1.4.1 核心术语定义

并发控制：协调多个爬取任务的资源分配，避免过载
速率限制（Rate Limiting）：控制单位时间内的请求次数
反爬机制：目标网站阻止恶意爬取的技术手段（如IP封禁、验证码）
分布式爬虫：通过多节点协作提升爬取规模的架构模式

1.4.2 相关概念解释

IO密集型任务：任务耗时主要在网络IO等待（爬虫典型场景）
CPU密集型任务：任务耗时主要在计算处理（非爬虫主要场景）
任务队列：解耦爬取任务的生产与消费，支持异步处理

1.4.3 缩略词列表

缩写	全称	说明
IO	Input/Output	输入输出操作
GIL	Global Interpreter Lock	Python全局解释器锁
HTTP	HyperText Transfer Protocol	超文本传输协议
URL	Uniform Resource Locator	统一资源定位符

2. 核心概念与联系

2.1 搜索引擎爬虫架构解析

搜索引擎爬虫的典型架构包含三大核心模块（图1）：

调度器 Scheduler

任务队列

待爬队列

已爬队列

下载器 Downloader

解析器 Parser

数据存储

新URL提取

去重模块

合格URL

图1 搜索引擎爬虫架构图

调度器：管理任务队列，决定下一个爬取的URL
下载器：负责实际HTTP请求，是并发控制的核心执行单元
解析器：提取页面数据与新URL，需处理动态内容（如JavaScript渲染）

2.2 并发控制核心要素

2.2.1 并发模型对比

模型	优点	缺点	适用场景
多线程	轻量级，适合IO密集型	GIL限制，线程安全问题	小规模并发（<100线程）
多进程	突破GIL，利用多核CPU	进程间通信开销大	CPU密集型辅助任务
异步IO	单线程处理大量IO，内存占用低	代码复杂度高，调试困难	大规模高并发（>1000连接）

2.2.2 反爬机制与应对策略

目标网站常见反爬手段：

IP频率限制：检测单IP请求频率
User-Agent识别：屏蔽常见爬虫UA
验证码挑战：人机验证机制
动态页面：通过JavaScript动态生成内容

应对策略需融入并发控制逻辑，例如：

为每个IP设置独立的请求速率限制
随机化请求间隔与User-Agent
集成浏览器渲染引擎（如Selenium/Playwright）处理动态内容

3. 核心算法原理 & 具体操作步骤

3.1 异步IO实现原理（以aiohttp为例）

异步IO通过事件循环（Event Loop）实现非阻塞请求，Python的asyncio库提供底层支持。核心步骤：

创建异步会话

import aiohttp
import asyncio

async def create_session():
    connector = aiohttp.TCPConnector(limit_per_host=10)  # 单主机并发限制
    session = aiohttp.ClientSession(connector=connector)
    return session

发起异步请求

async def fetch(session, url, semaphore):
    async with semaphore:  # 并发量控制信号量
        async with session.get(url, headers=get_random_headers()) as response:
            return await response.text()

任务调度

async def main(urls):
    session = await create_session()
    semaphore = asyncio.Semaphore(100)  # 全局并发限制
    tasks = [fetch(session, url, semaphore) for url in urls]
    results = await asyncio.gather(*tasks)
    await session.close()
    return results

3.2 速率控制算法实现

3.2.1 令牌桶算法（Token Bucket）

原理：以恒定速率生成令牌存入桶中，每次请求消耗一个令牌，桶满时丢弃新令牌。
数学模型：

令牌生成速率：r 个/秒
桶容量：b 个
允许突发请求数：b 个

请求间隔计算：
$\max(0, \frac{n - c}{r})$
其中：n为待处理请求数，c为当前令牌数

Python实现：

import time

class TokenBucket:
    def __init__(self, capacity, rate):
        self.capacity = capacity  # 最大令牌数
        self.rate = rate  # 每秒生成令牌数
        self.tokens = capacity  # 当前令牌数
        self.last_refill = time.time()

    def refill(self):
        now = time.time()
        delta = now - self.last_refill
        new_tokens = delta * self.rate
        self.tokens = min(self.capacity, self.tokens + new_tokens)
        self.last_refill = now

    def can_consume(self, count=1):
        self.refill()
        if self.tokens >= count:
            self.tokens -= count
            return True
        return False

3.2.2 漏桶算法（Leaky Bucket）

原理：请求进入漏桶，以恒定速率流出，突发请求被平滑处理。
对比：令牌桶允许突发请求，漏桶适合严格速率控制。

4. 数学模型和公式 & 详细讲解 & 举例说明

4.1 并发量与爬取效率关系

设单个请求耗时为 ( T )（秒），并发数为 ( N )，则理论最大吞吐量为：
$\text{吞吐量} = \frac{N}{T}$

实际影响因素：

目标网站响应时间波动
网络延迟与丢包率
反爬机制导致的重试开销

案例：若平均响应时间为200ms，理想并发100时吞吐量为500请求/秒，但实际因重试可能降至300请求/秒。

4.2 速率限制公式推导

假设目标网站要求单IP每分钟最多100次请求，则：
$\text{最小请求间隔} = \frac{60}{100} = 0.6 \text{秒/次}$

结合令牌桶算法，设置桶容量为100，生成速率1.67令牌/秒（100/60），可确保不超过限制。

5. 项目实战：分布式爬虫并发控制实现

5.1 开发环境搭建

工具链：

Python 3.9+
aiohttp 3.8+（异步HTTP客户端）
Redis 6.0+（分布式任务队列）
Scrapy 2.5+（可选，用于结构化解析）

安装依赖：

pip install aiohttp redis python-redis

5.2 系统架构设计

生产者节点

Redis任务队列

消费者节点1

消费者节点2

任务分发

下载器池

解析器

数据存储

新URL入队

图2 分布式爬虫架构图

5.3 核心模块实现

5.3.1 分布式任务队列（Redis）

import redis

class RedisQueue:
    def __init__(self, host='localhost', port=6379, db=0):
        self.redis = redis.Redis(host=host, port=port, db=db)
        self.queue_name = 'crawl_queue'

    def push(self, url):
        self.redis.lpush(self.queue_name, url)

    def pop(self):
        return self.redis.brpop(self.queue_name, timeout=0)[1].decode()

    def size(self):
        return self.redis.llen(self.queue_name)

5.3.2 异步下载器（带速率控制）

class AsyncDownloader:
    def __init__(self, concurrency=100, rate_limit=50):
        self.concurrency = concurrency
        self.rate_limiter = TokenBucket(capacity=rate_limit, rate=rate_limit/60)  # 每分钟50次
        self.session = None

    async def init_session(self):
        connector = aiohttp.TCPConnector(limit_per_host=10, verify_ssl=False)
        self.session = aiohttp.ClientSession(connector=connector)

    async def fetch(self, url):
        while not self.rate_limiter.can_consume():
            await asyncio.sleep(0.1)  # 等待令牌生成
        async with asyncio.Semaphore(self.concurrency):
            try:
                async with self.session.get(url, headers=self.get_headers()) as resp:
                    return await resp.text()
            except Exception as e:
                print(f"Request failed: {e}")
                return None

    def get_headers(self):
        # 随机化User-Agent
        user_agents = [
            "Mozilla/5.0 (Windows NT 10.0)...",
            "Chrome/91.0.4472.124...",
            # 更多UA列表
        ]
        return {"User-Agent": random.choice(user_agents)}

5.3.3 解析器与任务分发

async def parse_page(html, queue):
    # 使用BeautifulSoup解析页面
    soup = BeautifulSoup(html, 'html.parser')
    # 提取数据
    data = extract_data(soup)
    # 存储数据
    save_to_db(data)
    # 提取新URL
    new_urls = extract_urls(soup)
    # 去重后入队
    for url in deduplicate(new_urls):
        queue.push(url)

5.4 主流程控制

async def worker(queue, downloader):
    await downloader.init_session()
    while True:
        url = queue.pop()
        html = await downloader.fetch(url)
        if html:
            await parse_page(html, queue)

async def main():
    queue = RedisQueue()
    downloader = AsyncDownloader(concurrency=200, rate_limit=100)
    # 启动多个worker节点
    workers = [worker(queue, downloader) for _ in range(10)]
    await asyncio.gather(*workers)

if __name__ == "__main__":
    asyncio.run(main())

6. 实际应用场景

6.1 垂直搜索引擎爬虫

需求：爬取特定领域（如学术论文、电商产品）的海量数据
策略：

按域名分组，为每个域名设置独立的速率限制
使用分布式队列实现多节点负载均衡
集成代理IP池应对IP封禁

6.2 实时搜索引擎更新

需求：高频抓取新闻网站获取最新内容
挑战：

严格的速率限制（避免影响网站性能）
动态页面处理（如单页应用SPA）
解决方案：
结合Selenium与异步IO，实现渲染与请求并发
使用滑动窗口算法动态调整并发量

6.3 跨境搜索引擎爬虫

难点：

国际网络延迟差异大
地区性反爬策略（如IP地域限制）
优化：
按地域部署爬虫节点
为每个节点配置本地化User-Agent和请求头

7. 工具和资源推荐

7.1 学习资源推荐

7.1.1 书籍推荐

《Python网络数据采集》（Ryan Mitchell）
- 涵盖基础爬虫到动态页面处理
《异步Python编程实战》（Yury Selivanov）
- 深入解析asyncio与aiohttp原理
《分布式系统原理与范型》（George Coulouris）
- 理解分布式爬虫架构设计

7.1.2 在线课程

Coursera《Web Crawling for Data Science》
Udemy《Advanced Python Web Scraping with Asyncio》
慕课网《分布式爬虫实战》

7.1.3 技术博客和网站

Scrapy官方文档（https://docs.scrapy.org）
aiohttp官方指南（https://aiohttp.org）
爬虫反爬技术博客（https://antispider.gitbook.io）

7.2 开发工具框架推荐

7.2.1 IDE和编辑器

PyCharm（专业版支持异步代码调试）
VS Code（轻量，插件丰富）

7.2.2 调试和性能分析工具

Wireshark（网络包分析）
cProfile（CPU性能分析）
aiohttp-devtools（异步代码调试辅助）

7.2.3 相关框架和库

分布式任务队列：Celery（配合Redis/RabbitMQ）
代理IP管理：ProxyPool（开源代理池实现）
动态渲染：Playwright（比Selenium更轻量的浏览器控制库）

7.3 相关论文著作推荐

7.3.1 经典论文

《The Anatomy of a Large-Scale Hypertextual Web Search Engine》（Google PageRank算法）
《Efficient Crawling through URL Ordering》（斯坦福大学，爬虫调度策略）
《Web Crawling: Past, Present and Future》（综述性论文，涵盖反爬技术演进）

7.3.2 最新研究成果

《Adaptive Crawling: A Machine Learning Approach to Rate Limiting》（2023年，基于ML的动态速率控制）
《Overcoming Anti-Crawling Mechanisms with Reinforcement Learning》（2022年，强化学习应对反爬）

7.3.3 应用案例分析

Google爬虫调度系统揭秘（官方技术博客）
亚马逊商品爬虫的反爬对抗实践（行业白皮书）

8. 总结：未来发展趋势与挑战

8.1 技术趋势

智能化并发控制：结合机器学习预测目标网站反爬策略，动态调整并发参数
边缘计算集成：在边缘节点部署爬虫，降低中心服务器压力与网络延迟
无服务器架构（Serverless）：利用AWS Lambda等服务实现弹性并发扩展

8.2 核心挑战

动态反爬技术升级：如基于行为分析的验证码、AI驱动的流量识别
数据隐私与合规：GDPR等法规对爬虫的数据采集范围提出严格限制
大规模分布式协调：如何在数百节点中实现精准的速率控制与任务均衡

8.3 实践建议

从单机异步爬虫逐步过渡到分布式架构，优先解决单机并发瓶颈
建立完善的监控体系，实时跟踪请求成功率、响应时间、反爬触发频率
维护可扩展的代理IP池和User-Agent池，降低被封禁风险

9. 附录：常见问题与解答

Q1：如何选择合适的并发模型？

A：小规模爬取（<50并发）用多线程；中等规模（50-500）用异步IO；大规模分布式场景结合异步IO与多进程。

Q2：令牌桶和漏桶算法哪个更适合反爬？

A：令牌桶允许一定突发请求，适合模拟真实用户行为；漏桶适合严格速率控制，避免瞬间流量峰值。

Q3：分布式爬虫如何处理任务重复？

A：通过Redis的Set结构存储已爬URL，入队前检查是否存在，确保全局去重。

Q4：遇到IP封禁怎么办？

A：立即切换代理IP，降低该IP的请求频率，必要时加入IP冷却队列，等待封禁解除。

10. 扩展阅读 & 参考资料

Python官方异步IO文档
aiohttp最佳实践指南
Redis分布式锁实现方案
Scrapy并发设置深度解析
IETF HTTP速率限制规范（RFC 6588）

通过系统化的并发控制设计，搜索引擎爬虫能够在效率与稳定性之间找到最佳平衡。随着反爬技术的演进，爬虫开发者需要持续优化策略，结合最新技术构建健壮的爬取系统。实践中建议从具体业务场景出发，逐步迭代并发控制逻辑，最终实现高性能、低风险的数据获取能力。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n

Python爬虫进阶：搜索引擎爬虫的并发控制