搜索引擎技术

搜索引擎爬虫开发：如何爬取需要短信验证的网站

关键词：网络爬虫、短信验证、反爬机制、自动化测试、验证码识别、代理IP、爬虫框架

摘要：本文深入探讨了如何开发能够应对短信验证机制的搜索引擎爬虫。我们将从爬虫基础原理出发，分析短信验证的技术实现，详细讲解绕过验证的多种策略，包括自动化测试工具使用、验证码识别技术、代理IP池构建等。文章包含完整的Python代码实现，数学模型分析，以及实际项目案例，帮助开发者构建健壮的爬虫系统。

1. 背景介绍

1.1 目的和范围

本文旨在为开发者提供一套完整的解决方案，用于爬取那些实施了短信验证机制保护的网站内容。我们将覆盖从基础爬虫开发到高级反反爬技术的全流程知识。

1.2 预期读者

搜索引擎开发工程师
数据采集专家
网络安全研究人员
自动化测试工程师
对反爬机制感兴趣的技术人员

1.3 文档结构概述

文章首先介绍爬虫和短信验证的基础概念，然后深入技术实现细节，包括多种绕过验证的方法，最后通过实际案例展示完整解决方案。

1.4 术语表

1.4.1 核心术语定义

爬虫(Crawler)：自动浏览和收集网页信息的程序
短信验证(SMS Verification)：通过手机短信发送验证码的安全机制
反爬机制(Anti-scraping)：网站防止自动化访问的技术手段

1.4.2 相关概念解释

验证码识别(CAPTCHA Recognition)：使用技术手段自动识别验证码
代理IP池(Proxy IP Pool)：大量代理IP地址的集合，用于隐藏真实IP
自动化测试工具(Automation Testing Tools)：模拟用户操作的软件工具

1.4.3 缩略词列表

API：应用程序接口
SMS：短消息服务
CAPTCHA：全自动区分计算机和人类的公开图灵测试
IP：互联网协议地址

2. 核心概念与联系

2.1 短信验证技术原理

短信验证通常包含以下流程：

用户访问网站

触发验证

输入手机号

发送短信验证码

输入验证码

验证通过

2.2 爬虫与反爬的对抗关系

正常访问

可疑访问

成功

失败

爬虫请求

网站检测

返回数据

触发验证

爬虫应对

访问终止

2.3 技术挑战与解决方案矩阵

挑战类型	典型表现	解决方案
行为验证	鼠标轨迹检测	自动化测试工具模拟
短信验证	需要手机验证码	虚拟号码平台
IP限制	IP访问频率限制	代理IP池轮换
Cookie验证	会话跟踪	Cookie管理机制

3. 核心算法原理 & 具体操作步骤

3.1 整体架构设计

class SMSCrawler:
    def __init__(self):
        self.proxy_pool = ProxyPool()
        self.captcha_solver = CaptchaSolver()
        self.browser = BrowserAutomator()
        
    def crawl(self, url):
        try:
            response = self._request(url)
            if self._is_verification_required(response):
                self._bypass_verification()
            return self._extract_data(response)
        except Exception as e:
            self._handle_error(e)

3.2 绕过短信验证的关键步骤

检测验证触发条件

def _is_verification_required(self, response):
    # 检测响应中是否包含验证元素
    verification_keywords = ['短信验证', '验证码', '手机号']
    return any(keyword in response.text for keyword in verification_keywords)

获取虚拟手机号码

def _get_virtual_number(self):
    # 使用虚拟号码API获取临时手机号
    api_url = "https://virtual-number-api.com/get_number"
    response = requests.get(api_url)
    return response.json()['number']

自动填写验证表单

def _fill_verification_form(self, phone_number):
    self.browser.fill('input[name="phone"]', phone_number)
    self.browser.click('button[type="submit"]')
    
    # 等待并获取验证码
    verification_code = self._receive_sms_code(phone_number)
    
    self.browser.fill('input[name="code"]', verification_code)
    self.browser.click('button[type="submit"]')

处理验证码接收

def _receive_sms_code(self, phone_number):
    # 轮询虚拟号码API获取短信
    start_time = time.time()
    while time.time() - start_time < 120:  # 2分钟超时
        response = requests.get(
            f"https://virtual-number-api.com/get_sms?number={phone_number}")
        messages = response.json()['messages']
        
        for msg in messages:
            if '验证码' in msg['content']:
                # 使用正则提取数字验证码
                match = re.search(r'\d{4,6}', msg['content'])
                if match:
                    return match.group()
        
        time.sleep(5)  # 每5秒检查一次
    
    raise TimeoutError("验证码接收超时")

4. 数学模型和公式 & 详细讲解

4.1 爬虫访问频率模型

为了避免触发反爬机制，我们需要控制访问频率。可以使用泊松过程来模拟人类访问模式：

$\frac{(\lambda t)^k e^{-\lambda t}}{k!}$

其中：

$\lambda$ 是平均访问率（次/秒）
$t$ 是时间间隔
$k$ 是在时间 $t$ 内发生的访问次数

4.2 代理IP池性能评估

代理IP池的效率可以用以下指标衡量：

可用率：
$\frac{N_{working}}{N_{total}} \times 100\%$
响应时间期望：
$\frac{1}{N}\sum_{i=1}^{N} T_i$
IP切换策略优化：
最优切换频率可以通过马尔可夫决策过程建模：

$\max_{a \in A(s)} \left( R(s,a) + \gamma \sum_{s'} P(s'|s,a) V(s') \right)$

其中：

$s$ 是当前状态（IP被封锁概率）
$a$ 是行动（继续使用或切换IP）
$R$ 是即时奖励
$\gamma$ 是折扣因子

4.3 验证码识别准确率

验证码识别系统的性能可以用混淆矩阵评估：

	预测正确	预测错误
实际正确	TP	FP
实际错误	FN	TN

准确率：
$\frac{TP + TN}{TP + FP + FN + TN}$

召回率：
$\frac{TP}{TP + FN}$

5. 项目实战：代码实际案例和详细解释说明

5.1 开发环境搭建

# 创建虚拟环境
python -m venv sms_crawler_env
source sms_crawler_env/bin/activate  # Linux/Mac
# sms_crawler_env\Scripts\activate  # Windows

# 安装依赖
pip install selenium requests beautifulsoup4 pillow pytesseract python-dotenv

5.2 源代码详细实现

5.2.1 完整爬虫类实现

import time
import re
import random
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
from dotenv import load_dotenv
import os

load_dotenv()

class SMSCrawler:
    def __init__(self, headless=True):
        self.options = webdriver.ChromeOptions()
        if headless:
            self.options.add_argument('--headless')
        self.options.add_argument('--disable-blink-features=AutomationControlled')
        self.driver = webdriver.Chrome(options=self.options)
        self.proxy_list = self._load_proxies()
        self.current_proxy = None
        self.virtual_number_api = os.getenv('VIRTUAL_NUMBER_API')
        self.captcha_api_key = os.getenv('CAPTCHA_API_KEY')
        
    def _load_proxies(self):
        # 从文件或API加载代理IP列表
        with open('proxies.txt') as f:
            return [line.strip() for line in f if line.strip()]
    
    def _rotate_proxy(self):
        # 轮换代理IP
        self.current_proxy = random.choice(self.proxy_list)
        self.driver.quit()
        
        proxy_options = webdriver.ChromeOptions()
        proxy_options.add_argument(f'--proxy-server={self.current_proxy}')
        self.driver = webdriver.Chrome(options=proxy_options)
    
    def _solve_captcha(self, image_url):
        # 使用第三方API解决验证码
        api_url = "https://api.captcha.solver.com/solve"
        payload = {
            'key': self.captcha_api_key,
            'method': 'base64',
            'body': image_url,
            'json': 1
        }
        response = requests.post(api_url, data=payload)
        return response.json().get('solution')
    
    def _human_like_delay(self):
        # 模拟人类操作延迟
        time.sleep(random.uniform(1.5, 3.5))
    
    def crawl(self, url, max_retries=3):
        for attempt in range(max_retries):
            try:
                self.driver.get(url)
                self._human_like_delay()
                
                # 检查是否需要验证
                if self._detect_verification():
                    if not self._bypass_verification():
                        raise Exception("验证绕过失败")
                
                # 获取页面内容
                page_source = self.driver.page_source
                soup = BeautifulSoup(page_source, 'html.parser')
                return self._extract_data(soup)
                
            except Exception as e:
                print(f"尝试 {attempt + 1} 失败: {str(e)}")
                self._rotate_proxy()
                if attempt == max_retries - 1:
                    raise
                time.sleep(5 ** (attempt + 1))  # 指数退避
    
    def _detect_verification(self):
        # 检测页面是否包含验证元素
        verification_elements = [
            '//input[@name="phone"]',
            '//input[@name="sms_code"]',
            '//button[contains(text(),"获取验证码")]'
        ]
        return any(self.driver.find_elements(By.XPATH, el) for el in verification_elements)
    
    def _bypass_verification(self):
        try:
            # 获取虚拟号码
            phone_number = self._get_virtual_number()
            
            # 填写手机号并点击发送
            phone_input = self.driver.find_element(By.XPATH, '//input[@name="phone"]')
            phone_input.send_keys(phone_number)
            self._human_like_delay()
            
            send_btn = self.driver.find_element(By.XPATH, '//button[contains(text(),"获取验证码")]')
            send_btn.click()
            self._human_like_delay()
            
            # 获取并填写验证码
            code = self._get_verification_code(phone_number)
            code_input = self.driver.find_element(By.XPATH, '//input[@name="sms_code"]')
            code_input.send_keys(code)
            self._human_like_delay()
            
            # 提交验证
            submit_btn = self.driver.find_element(By.XPATH, '//button[contains(text(),"验证")]')
            submit_btn.click()
            self._human_like_delay()
            
            return True
        except Exception as e:
            print(f"验证绕过失败: {str(e)}")
            return False
    
    def _get_virtual_number(self):
        # 实现获取虚拟号码的逻辑
        response = requests.get(f"{self.virtual_number_api}/get_number")
        if response.status_code == 200:
            return response.json()['number']
        raise Exception("获取虚拟号码失败")
    
    def _get_verification_code(self, phone_number):
        # 实现获取验证码的逻辑
        start_time = time.time()
        while time.time() - start_time < 120:
            response = requests.get(
                f"{self.virtual_number_api}/get_sms?number={phone_number}")
            if response.status_code == 200:
                messages = response.json().get('messages', [])
                for msg in messages:
                    match = re.search(r'\b\d{4,6}\b', msg.get('content', ''))
                    if match:
                        return match.group()
            time.sleep(5)
        raise Exception("获取验证码超时")
    
    def _extract_data(self, soup):
        # 实现数据提取逻辑
        data = {}
        # 示例：提取所有标题
        data['titles'] = [h.text for h in soup.find_all(['h1', 'h2', 'h3'])]
        # 示例：提取所有链接
        data['links'] = [a['href'] for a in soup.find_all('a', href=True)]
        return data
    
    def __del__(self):
        self.driver.quit()

5.3 代码解读与分析

代理管理机制：
- 使用_rotate_proxy方法实现IP轮换
- 代理列表从外部文件加载，支持动态更新
- 每次请求失败后自动切换代理
验证码处理流程：
- 通过_detect_verification检测验证页面
- 使用虚拟号码API获取临时手机号
- 自动填写表单并获取验证码
- 支持多种验证码类型（短信、图形等）
人类行为模拟：
- 随机延迟(_human_like_delay)
- 自然操作间隔
- 指数退避重试机制
异常处理：
- 多层重试机制
- 详细的错误日志
- 资源自动清理

6. 实际应用场景

6.1 电商价格监控

爬取需要登录的电商平台价格数据，用于竞争对手分析。短信验证常用于这些平台的高级数据访问。

6.2 社交媒体数据采集

收集需要验证的社交媒体内容，用于舆情分析或用户行为研究。

6.3 金融服务数据聚合

获取需要严格身份验证的金融数据，如股票行情、财经新闻等。

6.4 政府公开数据获取

某些政府网站对高频访问实施短信验证，需要自动化解决方案进行合规采集。

6.5 学术研究数据收集

爬取学术平台的研究论文和资料，这些平台通常有严格的访问控制。

7. 工具和资源推荐

7.1 学习资源推荐

7.1.1 书籍推荐

《Python网络数据采集》Ryan Mitchell
《Web Scraping with Python》Richard Lawson
《反爬虫AST原理与绕过实战》

7.1.2 在线课程

Udemy: “Web Scraping and API Fundamentals in Python”
Coursera: “Python for Data Science and AI”
极客时间: “爬虫开发实战”

7.1.3 技术博客和网站

Scrapy官方文档
Selenium官方文档
知乎爬虫技术专栏

7.2 开发工具框架推荐

7.2.1 IDE和编辑器

PyCharm Professional（强大的调试工具）
VS Code（轻量级，插件丰富）
Jupyter Notebook（交互式开发）

7.2.2 调试和性能分析工具

Chrome开发者工具
Postman（API调试）
Charles Proxy（网络请求分析）

7.2.3 相关框架和库

Scrapy（专业爬虫框架）
Selenium（浏览器自动化）
Requests-HTML（简单易用的HTTP库）
Pillow+Pytesseract（验证码识别）

7.3 相关论文著作推荐

7.3.1 经典论文

“A Survey on Web Crawler Architectures” (IEEE)
“Anti-Scraping Techniques and Their Countermeasures” (ACM)

7.3.2 最新研究成果

“Deep Learning for CAPTCHA Recognition” (2023)
“Dynamic IP Rotation Strategies for Web Crawlers” (2022)

7.3.3 应用案例分析

“Large-scale Product Data Collection from E-commerce Platforms”
“Social Media Monitoring with Anti-Anti-Scraping Techniques”

8. 总结：未来发展趋势与挑战

8.1 技术发展趋势

AI驱动的反爬技术：网站将越来越多地使用机器学习检测爬虫行为
生物特征验证：指纹、面部识别等更高级的验证方式可能出现
区块链验证：基于区块链的不可伪造验证机制
行为分析技术：更精细的用户行为建模和异常检测

8.2 应对策略展望

强化学习应用：使用RL训练爬虫模拟人类行为
分布式爬虫架构：更分散、更隐蔽的采集网络
硬件指纹模拟：全面模拟用户设备特征
合法数据获取：更多平台提供官方API替代爬虫

8.3 伦理与法律考量

遵守robots.txt协议
尊重网站服务条款
控制访问频率避免影响网站运营
保护用户隐私数据

9. 附录：常见问题与解答

Q1: 这种爬虫技术合法吗？

A: 爬虫技术的合法性取决于具体使用方式。建议：

遵守目标网站的robots.txt协议
不爬取个人隐私数据
控制访问频率不影响网站正常运行
咨询法律专业人士确保合规

Q2: 如何提高爬虫的稳定性？

A: 提高稳定性的关键措施：

完善的错误处理和重试机制
多样化的代理IP来源
定期更新验证码识别模型
模拟更真实的人类行为模式

Q3: 网站更新了验证机制怎么办？

A: 应对验证机制更新的策略：

建立自动化测试框架检测验证变化
模块化设计便于快速更新验证绕过逻辑
维护验证码样本库持续训练模型
监控社区获取最新绕过技术

Q4: 如何处理需要付费的虚拟号码服务？

A: 付费虚拟号码服务的优化使用：

优先选择按次付费而非订阅制
建立号码复用机制
多平台比价选择性价比高的服务
开发号码有效性检测减少浪费

10. 扩展阅读 & 参考资料

Scrapy官方文档
Selenium Python API文档
Python Requests文档
反爬技术研究论文合集
Web Scraping最佳实践
中国网络安全法相关规定
GDPR数据保护条例

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
【Coze搞钱实战】3. 避坑指南：对话流设计中的6个致命错误（真实案例） AI_DL_CODE Coze平台对话流设计客服Bot避坑用户流失封号风险智能客服配置故障修复指南
摘要：对话流设计是智能客服Bot能否落地的核心环节，直接影响用户体验与业务安全。本文基于50+企业Bot部署故障分析，聚焦导致用户流失、投诉甚至封号的6大致命错误：无限循环追问、人工移交超时、敏感词过滤缺失、知识库冲突、未处理否定意图、跨平台适配失败。通过真实案例拆解每个错误的表现形式、技术根因及工业级解决方案，提供可直接复用的Coze配置代码、工作流模板和检测工具。文中包含对话流健康度检测工具使
微信公众号回调java_处理微信公众号消息回调 weixin_39607620 微信公众号回调java
1、背景在上一节中，咱们知道如何接入微信公众号，可是以后公众号会与咱们进行交互，那么微信公众号如何通知到咱们本身的服务器呢？咱们知道咱们接入的时候提供的url是GET/mp/entry，那么公众号以后产生的事件将会以POST/mp/entry发送到咱们本身的服务器上。html2、代码实现，此处仍是使用weixin-java-mp这个框架实现一、引入weixin-java-mpcom.github.
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Selenium基础教程 lemontree1945 selenium python 测试工具
1.Selenium环境安装1.1浏览器安装Chrome和ChromeDriver下载地址:https://googlechromelabs.github.io/chrome-for-testing/注意：驱动版本号要和浏览器版本号一致；安装后关闭浏览器自动更新:services.msc:打开系统服务找到和google相关的服务，全部修改为禁用1.2安装第三方库seleniumpipinstall
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

搜索引擎爬虫开发：如何爬取需要短信验证的网站