Luck_ff0810

【Python爬虫详解】第五篇：使用正则表达式提取网页数据

在前面几篇文章中，我们介绍了几种强大的HTML解析工具：BeautifulSoup、XPath和PyQuery。这些工具都是基于HTML结构来提取数据的。然而，有时我们需要处理的文本可能没有良好的结构，或者我们只关心特定格式的字符串，这时正则表达式就是一个非常强大的工具。本文将介绍如何使用Python的re模块和正则表达式来提取网页数据。

一、正则表达式简介

正则表达式(Regular Expression，简称regex)是一种强大的文本模式匹配和搜索工具。它使用特定的语法规则定义字符串模式，可以用来：

搜索：查找符合特定模式的文本
匹配：判断文本是否符合特定模式
提取：从文本中提取符合模式的部分
替换：替换文本中符合模式的部分

在网页爬虫中，正则表达式特别适合提取格式统一的数据，比如：邮箱地址、电话号码、URL链接、商品价格等。

二、Python re模块基础

Python的re模块提供了正则表达式操作的接口。以下是最常用的几个函数：

import re

# 示例文本
text = "联系我们：[email protected] 或致电 400-123-4567"

# 1. re.search() - 查找第一个匹配
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
email_match = re.search(email_pattern, text)
if email_match:
    print(f"找到邮箱: {email_match.group()}")

# 2. re.findall() - 查找所有匹配
phone_pattern = r'\d{3}-\d{3}-\d{4}'
phones = re.findall(phone_pattern, text)
print(f"找到电话: {phones}")

# 3. re.sub() - 替换
masked_text = re.sub(email_pattern, '[邮箱已隐藏]', text)
print(f"替换后: {masked_text}")

# 4. re.split() - 分割
words = re.split(r'\s+', text)
print(f"分割后: {words}")

# 5. re.compile() - 编译正则表达式
email_regex = re.compile(email_pattern)
email_match = email_regex.search(text)
print(f"使用编译后的正则: {email_match.group()}")

运行结果：

找到邮箱: [email protected]
找到电话: ['400-123-4567']
替换后: 联系我们：[邮箱已隐藏] 或致电 400-123-4567
分割后: ['联系我们：[email protected]', '或致电', '400-123-4567']
使用编译后的正则: [email protected]

重要的re模块函数和方法

函数/方法	描述
`re.search(pattern, string)`	在字符串中搜索第一个匹配项，返回Match对象或None
`re.match(pattern, string)`	只在字符串开头匹配，返回Match对象或None
`re.findall(pattern, string)`	返回所有匹配项的列表
`re.finditer(pattern, string)`	返回所有匹配项的迭代器，每项是Match对象
`re.sub(pattern, repl, string)`	替换所有匹配项，返回新字符串
`re.split(pattern, string)`	按匹配项分割字符串，返回列表
`re.compile(pattern)`	编译正则表达式，返回Pattern对象，可重复使用

Match对象常用方法

当使用re.search()、re.match()或re.finditer()时，会返回Match对象，该对象有以下常用方法：

import re

text = "产品编号: ABC-12345, 价格: ¥199.99"
pattern = r'(\w+)-(\d+)'
match = re.search(pattern, text)

if match:
    print(f"完整匹配: {match.group()}")  # 完整匹配
    print(f"第1个分组: {match.group(1)}")  # 第1个括号内容
    print(f"第2个分组: {match.group(2)}")  # 第2个括号内容
    print(f"所有分组: {match.groups()}")  # 所有分组组成的元组
    print(f"匹配开始位置: {match.start()}")  # 匹配的开始位置
    print(f"匹配结束位置: {match.end()}")  # 匹配的结束位置
    print(f"匹配位置区间: {match.span()}")  # (开始,结束)元组

运行结果：

完整匹配: ABC-12345
第1个分组: ABC
第2个分组: 12345
所有分组: ('ABC', '12345')
匹配开始位置: 6
匹配结束位置: 15
匹配位置区间: (6, 15)

三、正则表达式语法

1. 基本字符匹配

元字符	描述
`.`	匹配任意单个字符（除了换行符）
`^`	匹配字符串开头
`$`	匹配字符串结尾
`*`	匹配前面的字符0次或多次
`+`	匹配前面的字符1次或多次
`?`	匹配前面的字符0次或1次
`{n}`	匹配前面的字符恰好n次
`{n,}`	匹配前面的字符至少n次
`{n,m}`	匹配前面的字符n到m次
`\`	转义字符
`[]`	字符集，匹配括号内的任一字符
`[^]`	否定字符集，匹配括号内字符以外的任何字符
`\|`	或运算符，匹配它前面或后面的表达式
`()`	分组，可以捕获匹配的子串

2. 常用的预定义字符集

字符	描述
`\d`	匹配数字，等同于[0-9]
`\D`	匹配非数字，等同于[^0-9]
`\w`	匹配字母、数字或下划线，等同于[a-zA-Z0-9_]
`\W`	匹配非字母、数字和下划线，等同于[^a-zA-Z0-9_]
`\s`	匹配任何空白字符，包括空格、制表符、换行符等
`\S`	匹配任何非空白字符
`\b`	匹配单词边界
`\B`	匹配非单词边界

3. 实际示例

import re

# 文本示例
text = """
电子邮箱: [email protected], [email protected]
电话号码: 13812345678, 021-87654321
网址: https://www.example.com, http://test.org
价格: ¥99.99, $29.99, €19.99
IP地址: 192.168.1.1
"""

# 匹配邮箱
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)
print(f"邮箱列表: {emails}")

# 匹配手机号
mobile_phones = re.findall(r'1\d{10}', text)
print(f"手机号列表: {mobile_phones}")

# 匹配座机号码（含区号）
landline_phones = re.findall(r'\d{3,4}-\d{7,8}', text)
print(f"座机号码列表: {landline_phones}")

# 匹配网址
urls = re.findall(r'https?://[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)
print(f"网址列表: {urls}")

# 匹配价格（不同货币）
prices = re.findall(r'[¥$€]\d+\.\d{2}', text)
print(f"价格列表: {prices}")

# 匹配IP地址
ips = re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', text)
print(f"IP地址列表: {ips}")

运行结果：

邮箱列表: ['[email protected]', '[email protected]']
手机号列表: ['13812345678']
座机号码列表: ['021-87654321']
网址列表: ['https://www.example.com', 'http://test.org']
价格列表: ['¥99.99', '$29.99', '€19.99']
IP地址列表: ['192.168.1.1']

4. 分组与引用

分组是通过括号()实现的，可以提取匹配的部分。还可以在模式中引用之前的分组：

import re

# 提取日期并重新格式化
date_text = "日期: 2023-07-15"
date_pattern = r'(\d{4})-(\d{2})-(\d{2})'

# 使用分组提取年、月、日
match = re.search(date_pattern, date_text)
if match:
    year, month, day = match.groups()
    print(f"年: {year}, 月: {month}, 日: {day}")
    
    # 重新格式化为中文日期格式
    chinese_date = f"{year}年{month}月{day}日"
    print(f"中文日期: {chinese_date}")

# 使用反向引用匹配重复单词
text_with_repeats = "我们需要需要去除重复重复的单词"
repeat_pattern = r'(\b\w+\b)\s+\1'
repeats = re.findall(repeat_pattern, text_with_repeats)
print(f"重复单词: {repeats}")

# 使用sub()和分组进行替换
html = "标题
内容
"
replaced = re.sub(r'(.*?)
', r'\1
', html)
print(f"替换后: {replaced}")

运行结果：

年: 2023, 月: 07, 日: 15
中文日期: 2023年07月15日
重复单词: ['需要', '重复']
替换后: 标题
内容

5. 贪婪匹配与非贪婪匹配

默认情况下，正则表达式的量词（*, +, ?, {n,m}）是"贪婪"的，它们会尽可能多地匹配字符。加上?后，这些量词变成"非贪婪"的，会尽可能少地匹配字符。

import re

text = "第一部分
第二部分
"

# 贪婪匹配 - 匹配从第一个到最后一个
greedy_pattern = r'.*
'
greedy_match = re.search(greedy_pattern, text)
print(f"贪婪匹配结果: {greedy_match.group()}")

# 非贪婪匹配 - 匹配每个...
对
non_greedy_pattern = r'.*?
'
non_greedy_matches = re.findall(non_greedy_pattern, text)
print(f"非贪婪匹配结果: {non_greedy_matches}")

运行结果：

贪婪匹配结果: 第一部分
第二部分
非贪婪匹配结果: ['第一部分
', '第二部分']

四、在网页爬虫中使用正则表达式

在网页爬虫中，正则表达式通常用于以下场景：

提取不适合用HTML解析器处理的数据
从混乱的文本中提取结构化信息
清理和格式化数据
验证数据格式

让我们看一些实际例子：

1. 提取网页中的所有链接

import re
import requests

def extract_all_links(url):
    """提取网页中的所有链接"""
    try:
        # 获取网页内容
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/91.0.4472.124'
        }
        response = requests.get(url, headers=headers)
        html = response.text
        
        # 使用正则表达式提取所有链接
        # 注意：这个模式不能处理所有的HTML链接复杂情况，但适用于大多数简单情况
        link_pattern = r']*href=["\'](.*?)["\'][^>]*>(.*?)'
        links = re.findall(link_pattern, html)
        
        # 返回(链接URL, 链接文本)元组的列表
        return links
    
    except Exception as e:
        print(f"提取链接时出错: {e}")
        return []

# 示例使用
if __name__ == "__main__":
    links = extract_all_links("https://example.com")
    
    print(f"找到 {len(links)} 个链接:")
    for url, text in links[:5]:  # 只显示前5个
        print(f"文本: {text.strip()}, URL: {url}")

运行结果（具体结果会根据网站内容变化）：

找到 1 个链接:
文本: More information..., URL: https://www.iana.org/domains/example

2. 提取新闻网页中的日期和标题

import re
import requests

def extract_news_info(html):
    """从新闻HTML中提取日期和标题"""
    # 提取标题
    title_pattern = r']*>(.*?)'
    title_match = re.search(title_pattern, html)
    title = title_match.group(1) if title_match else "未找到标题"
    
    # 提取日期 (多种常见格式)
    date_patterns = [
        r'\d{4}年\d{1,2}月\d{1,2}日',  # 2023年7月15日
        r'\d{4}-\d{1,2}-\d{1,2}',      # 2023-7-15
        r'\d{1,2}/\d{1,2}/\d{4}'       # 7/15/2023
    ]
    
    date = "未找到日期"
    for pattern in date_patterns:
        date_match = re.search(pattern, html)
        if date_match:
            date = date_match.group()
            break
    
    return {
        "title": title,
        "date": date
    }

# 模拟新闻页面HTML
mock_html = """



    示例新闻网站


    
        中国科学家取得重大突破
        
            发布时间：2023年7月15日 作者：张三
        
    
    
        这是新闻正文内容...
    


"""

# 提取信息
news_info = extract_news_info(mock_html)
print(f"新闻标题: {news_info['title']}")
print(f"发布日期: {news_info['date']}")

运行结果：

新闻标题: 中国科学家取得重大突破
发布日期: 2023年7月15日

3. 从电商网站提取商品价格

import re

def extract_prices(html):
    """从HTML中提取商品价格"""
    # 常见价格格式
    price_patterns = [
        r'¥\s*(\d+(?:\.\d{2})?)',              # ¥价格
        r'￥\s*(\d+(?:\.\d{2})?)',              # ￥价格
        r'人民币\s*(\d+(?:\.\d{2})?)',          # 人民币价格
        r'价格[：:]\s*(\d+(?:\.\d{2})?)',       # "价格："后面的数字
        r'<[^>]*class="[^"]*price[^"]*"[^>]*>\s*[¥￥]?\s*(\d+(?:\.\d{2})?)'  # 带price类的元素
    ]
    
    all_prices = []
    for pattern in price_patterns:
        prices = re.findall(pattern, html)
        all_prices.extend(prices)
    
    # 转换为浮点数
    return [float(price) for price in all_prices]

# 示例HTML
example_html = """

    超值笔记本电脑
    ¥4999.00
    ￥5999.00


    专业显示器
    ¥2499.00
    优惠价：人民币2299.00


    价格：1999.99，支持分期付款

"""

# 提取价格
prices = extract_prices(example_html)
print(f"提取到的价格列表: {prices}")
if prices:
    print(f"最低价格: ¥{min(prices)}")
    print(f"最高价格: ¥{max(prices)}")
    print(f"平均价格: ¥{sum(prices)/len(prices):.2f}")

运行结果：

提取到的价格列表: [4999.0, 5999.0, 2499.0, 2299.0, 1999.99]
最低价格: ¥1999.99
最高价格: ¥5999.0
平均价格: ¥3559.20

4. 使用正则表达式清理数据

import re

def clean_text(text):
    """清理文本数据"""
    # 删除HTML标签
    text = re.sub(r'<[^>]+>', '', text)
    
    # 规范化空白
    text = re.sub(r'\s+', ' ', text)
    
    # 删除特殊字符
    text = re.sub(r'[^\w\s.,?!，。？！]', '', text)
    
    # 规范化URL
    text = re.sub(r'(https?://[^\s]+)', lambda m: m.group(1).lower(), text)
    
    return text.strip()

# 待清理的文本
dirty_text = """
这是一段 包含  HTML 标签和多余空格的文本。
还有一些特殊字符：  < > ' "
以及URL: HTTPS://Example.COM/path
"""

# 清理文本
clean_result = clean_text(dirty_text)
print(f"清理前:\n{dirty_text}")
print(f"\n清理后:\n{clean_result}")

运行结果：

清理前:

这是一段 包含  HTML 标签和多余空格的文本。
还有一些特殊字符：  < > ' "
以及URL: HTTPS://Example.COM/path


清理后:
这是一段 包含 HTML 标签和多余空格的文本。 还有一些特殊字符 以及URL https://example.com/path

五、实际案例：分析一个完整的网页

让我们结合前面的知识，用正则表达式分析一个完整的网页，提取多种信息：

import re
import requests

def analyze_webpage(url):
    """使用正则表达式分析网页内容"""
    try:
        # 获取网页内容
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/91.0.4472.124'
        }
        response = requests.get(url, headers=headers)
        html = response.text
        
        # 提取网页标题
        title_match = re.search(r'(.*?)', html, re.IGNORECASE | re.DOTALL)
        title = title_match.group(1) if title_match else "未找到标题"
        
        # 提取所有链接
        links = re.findall(r']*href=["\'](.*?)["\'][^>]*>(.*?)', html, re.IGNORECASE | re.DOTALL)
        
        # 提取所有图片
        images = re.findall(r']*src=["\'](.*?)["\'][^>]*>', html, re.IGNORECASE)
        
        # 提取元描述
        meta_desc_match = re.search(r']*name=["\'](description)["\'][^>]*content=["\'](.*?)["\'][^>]*>', 
                                   html, re.IGNORECASE)
        meta_desc = meta_desc_match.group(2) if meta_desc_match else "未找到描述"
        
        # 提取所有h1-h3标题
        headings = re.findall(r']*>(.*?)', html, re.IGNORECASE | re.DOTALL)
        
        # 返回分析结果
        return {
            "title": title,
            "meta_description": meta_desc,
            "links_count": len(links),
            "images_count": len(images),
            "headings": [f"H{level}: {content.strip()}" for level, content in headings],
            "links": [(url, text.strip()) for url, text in links[:5]]  # 只返回前5个链接
        }
    
    except Exception as e:
        print(f"分析网页时出错: {e}")
        return None

# 使用一个真实的网页作为示例
analysis = analyze_webpage("https://example.com")

if analysis:
    print(f"网页标题: {analysis['title']}")
    print(f"元描述: {analysis['meta_description']}")
    print(f"链接数量: {analysis['links_count']}")
    print(f"图片数量: {analysis['images_count']}")
    
    print("\n主要标题:")
    for heading in analysis['headings']:
        print(f"- {heading}")
    
    print("\n部分链接:")
    for url, text in analysis['links']:
        if text:
            print(f"- {text} -> {url}")
        else:
            print(f"- {url}")

运行结果（以example.com为例）：

网页标题: Example Domain
元描述: 未找到描述
链接数量: 1
图片数量: 0

主要标题:
- H1: Example Domain

部分链接:
- More information... -> https://www.iana.org/domains/example

六、正则表达式优化与最佳实践

1. 性能优化

import re
import time

# 测试文本
test_text = "ID: ABC123456789" * 1000  # 重复1000次

# 测试不同的正则表达式写法
def test_regex_performance():
    patterns = {
        "未优化": r'ID: [A-Z]+\d+',
        "边界锚定": r'ID: [A-Z]+\d+',
        "使用原始字符串": r'ID: [A-Z]+\d+',
        "预编译": r'ID: [A-Z]+\d+',
        "预编译+优化标志": r'ID: [A-Z]+\d+'
    }
    
    results = {}
    
    # 未优化
    start = time.time()
    re.findall(patterns["未优化"], test_text)
    results["未优化"] = time.time() - start
    
    # 边界锚定
    start = time.time()
    re.findall(r'\bID: [A-Z]+\d+\b', test_text)  # 添加单词边界
    results["边界锚定"] = time.time() - start
    
    # 使用原始字符串
    start = time.time()
    re.findall(r'ID: [A-Z]+\d+', test_text)  # r前缀表示原始字符串
    results["使用原始字符串"] = time.time() - start
    
    # 预编译
    pattern = re.compile(patterns["预编译"])
    start = time.time()
    pattern.findall(test_text)
    results["预编译"] = time.time() - start
    
    # 预编译+优化标志
    pattern = re.compile(patterns["预编译+优化标志"], re.IGNORECASE)
    start = time.time()
    pattern.findall(test_text)
    results["预编译+优化标志"] = time.time() - start
    
    return results

# 显示性能测试结果
performance = test_regex_performance()
print("性能测试结果 (执行时间，单位：秒)")
print("-" * 40)
for name, time_taken in performance.items():
    print(f"{name}: {time_taken:.6f}")

运行结果（实际数值会因机器而异）：

性能测试结果 (执行时间，单位：秒)
----------------------------------------
未优化: 0.001995
边界锚定: 0.001996
使用原始字符串: 0.000997
预编译: 0.000000
预编译+优化标志: 0.001996

2. 正则表达式最佳实践

import re

def regex_best_practices():
    # 1. 使用原始字符串避免转义问题
    file_path = r'C:\Users\username\Documents'  # 使用r前缀
    print(f"文件路径: {file_path}")
    
    # 2. 预编译频繁使用的正则表达式
    email_pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
    
    # 3. 使用命名分组提高可读性
    date_pattern = re.compile(r'(?P\d{4})-(?P\d{2})-(?P\d{2})')
    date_match = date_pattern.search("日期: 2023-07-20")
    if date_match:
        print(f"年份: {date_match.group('year')}")
        print(f"月份: {date_match.group('month')}")
        print(f"日期: {date_match.group('day')}")
    
    # 4. 使用适当的标志
    html_fragment = "这是段落
"
    pattern_with_flags = re.compile(r'(.*?)
', re.IGNORECASE | re.DOTALL)
    match = pattern_with_flags.search(html_fragment)
    if match:
        print(f"段落内容: {match.group(1)}")
    
    # 5. 避免过度使用正则表达式
    # 对于简单字符串操作，使用内置方法通常更快
    text = "Hello, World!"
    # 不推荐: re.sub(r'Hello', 'Hi', text)
    # 推荐:
    replaced = text.replace("Hello", "Hi")
    print(f"替换后: {replaced}")
    
    # 6. 限制回溯
    # 避免: r'(a+)+'  # 可能导致灾难性回溯
    # 推荐: r'a+'
    
    # 7. 测试边界情况
    test_cases = ["[email protected]", "user@example", "user.example.com"]
    for case in test_cases:
        if email_pattern.match(case):
            print(f"有效邮箱: {case}")
        else:
            print(f"无效邮箱: {case}")

# 展示最佳实践
regex_best_practices()

运行结果：

文件路径: C:\Users\username\Documents
年份: 2023
月份: 07
日期: 20
段落内容: 这是段落
替换后: Hi, World!
有效邮箱: [email protected]
无效邮箱: user@example
无效邮箱: user.example.com

3. 常见错误和陷阱

import re

def common_regex_pitfalls():
    print("常见正则表达式陷阱和解决方案:")
    
    # 1. 贪婪量词导致的过度匹配
    html = "第一部分
第二部分
"
    print("\n1. 贪婪匹配问题:")
    print(f"原始HTML: {html}")
    greedy_result = re.findall(r'.*
', html)
    print(f"使用贪婪匹配 .* : {greedy_result}")
    non_greedy_result = re.findall(r'.*?
', html)
    print(f"使用非贪婪匹配 .*? : {non_greedy_result}")
    
    # 2. 使用 .* 匹配多行文本
    multiline_text = """
    多行
    内容
    """
    print("\n2. 点号无法匹配换行符:")
    print(f"原始文本:\n{multiline_text}")
    no_flag_result = re.search(r'(.*)', multiline_text)
    print(f"不使用DOTALL标志: {no_flag_result}")
    with_flag_result = re.search(r'(.*)', multiline_text, re.DOTALL)
    print(f"使用DOTALL标志: {with_flag_result.group(1) if with_flag_result else None}")
    
    # 3. 特殊字符未转义
    special_chars_text = "价格: $50.00 (美元)"
    print("\n3. 特殊字符未转义问题:")
    print(f"原始文本: {special_chars_text}")
    try:
        # 这会导致错误，因为 $ 和 ( 是特殊字符
        # re.search(r'价格: $50.00 (美元)', special_chars_text)
        print("尝试匹配未转义的特殊字符会导致错误")
    except:
        pass
    escaped_result = re.search(r'价格: \$50\.00 \(美元\)', special_chars_text)
    print(f"正确转义后: {escaped_result.group() if escaped_result else None}")
    
    # 4. 匹配换行符的问题
    newline_text = "第一行\n第二行\r\n第三行"
    print("\n4. 换行符处理问题:")
    print(f"原始文本: {repr(newline_text)}")
    lines1 = re.split(r'\n', newline_text)
    print(f"只匹配\\n: {lines1}")
    lines2 = re.split(r'\r?\n', newline_text)
    print(f"匹配\\r?\\n: {lines2}")
    
    # 5. 不必要的捕获组
    phone_text = "电话: 123-456-7890"
    print("\n5. 不必要的捕获组:")
    print(f"原始文本: {phone_text}")
    with_capture = re.search(r'电话: (\d{3})-(\d{3})-(\d{4})', phone_text)
    print(f"使用捕获组: {with_capture.groups() if with_capture else None}")
    non_capture = re.search(r'电话: (?:\d{3})-(?:\d{3})-(\d{4})', phone_text)
    print(f"使用非捕获组: {non_capture.groups() if non_capture else None}")

# 展示常见陷阱和解决方案
common_regex_pitfalls()

运行结果：

常见正则表达式陷阱和解决方案:

1. 贪婪匹配问题:
原始HTML: 第一部分
第二部分
使用贪婪匹配 .* : ['第一部分
第二部分']
使用非贪婪匹配 .*? : ['第一部分
', '第二部分']

2. 点号无法匹配换行符:
原始文本:

    多行
    内容
    
不使用DOTALL标志: None
使用DOTALL标志:     多行
    内容
    

3. 特殊字符未转义问题:
原始文本: 价格: $50.00 (美元)
尝试匹配未转义的特殊字符会导致错误
正确转义后: 价格: $50.00 (美元)

4. 换行符处理问题:
原始文本: '第一行\n第二行\r\n第三行'
只匹配\n: ['第一行', '第二行\r', '第三行']
匹配\r?\n: ['第一行', '第二行', '第三行']

5. 不必要的捕获组:
原始文本: 电话: 123-456-7890
使用捕获组: ('123', '456', '7890')
使用非捕获组: ('7890',)

七、正则表达式与其他解析方法的结合

在实际的爬虫项目中，我们通常会结合使用正则表达式和HTML解析库，各取所长：

import re
import requests
from bs4 import BeautifulSoup

def combined_parsing_approach(url):
    """结合BeautifulSoup和正则表达式解析网页"""
    try:
        # 获取网页内容
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/91.0.4472.124'
        }
        response = requests.get(url, headers=headers)
        html = response.text
        
        # 使用BeautifulSoup解析HTML结构
        soup = BeautifulSoup(html, 'lxml')
        
        # 1. 使用BeautifulSoup提取主要容器
        main_content = soup.find('main') or soup.find('div', id='content') or soup.find('div', class_='content')
        
        if not main_content:
            print("无法找到主要内容容器")
            return None
        
        # 获取容器的HTML
        content_html = str(main_content)
        
        # 2. 使用正则表达式提取特定信息
        
        # 提取所有邮箱地址
        emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', content_html)
        
        # 提取所有电话号码
        phones = re.findall(r'\b(?:\d{3}[-.]?){2}\d{4}\b', content_html)
        
        # 提取所有价格
        prices = re.findall(r'[$¥€£](\d+(?:\.\d{2})?)', content_html)
        
        # 3. 再次使用BeautifulSoup进行结构化数据提取
        paragraphs = main_content.find_all('p')
        paragraph_texts = [p.get_text().strip() for p in paragraphs]
        
        return {
            "emails": emails,
            "phones": phones,
            "prices": prices,
            "paragraphs_count": len(paragraph_texts),
            "first_paragraph": paragraph_texts[0] if paragraph_texts else ""
        }
    
    except Exception as e:
        print(f"解析网页时出错: {e}")
        return None

# 使用示例HTML
example_html = """


示例页面

    网站标题
    
        欢迎访问
        这是一个示例段落，包含邮箱 [email protected] 和电话 123-456-7890。
        
            产品A
            售价：¥99.99
        
        
            产品B
            售价：$199.99
        
        如有问题，请联系 [email protected] 或致电 987-654-3210。
    
    页脚信息


"""

# 模拟请求和响应
class MockResponse:
    def __init__(self, text):
        self.text = text

def mock_get(url, headers):
    return MockResponse(example_html)

# 备份原始requests.get函数
original_get = requests.get
# 替换为模拟函数
requests.get = mock_get

# 使用组合方法解析
result = combined_parsing_approach("https://example.com")
print("组合解析方法结果:")
if result:
    print(f"找到的邮箱: {result['emails']}")
    print(f"找到的电话: {result['phones']}")
    print(f"找到的价格: {result['prices']}")
    print(f"段落数量: {result['paragraphs_count']}")
    print(f"第一段内容: {result['first_paragraph']}")

# 恢复原始requests.get函数
requests.get = original_get

运行结果：

组合解析方法结果:
找到的邮箱: ['[email protected]', '[email protected]']
找到的电话: ['123-456-7890', '987-654-3210']
找到的价格: ['99.99', '199.99']
段落数量: 4
第一段内容: 这是一个示例段落，包含邮箱 [email protected] 和电话 123-456-7890。

八、何时使用正则表达式，何时不使用

正则表达式是强大的工具，但并不是所有场景都适合使用它。以下是一些指导原则：

1. 适合使用正则表达式的场景

import re

def when_to_use_regex():
    print("适合使用正则表达式的场景：")
    
    # 1. 提取遵循特定格式的字符串
    text = "用户ID: ABC-12345, 产品编号: XYZ-67890"
    ids = re.findall(r'[A-Z]+-\d+', text)
    print(f"1. 提取格式化ID: {ids}")
    
    # 2. 验证数据格式
    email = "[email protected]"
    is_valid = bool(re.match(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', email))
    print(f"2. 验证邮箱格式: {email} 是否有效? {is_valid}")
    
    # 3. 复杂的字符串替换
    html = "加粗文本 和 斜体文本"
    text_only = re.sub(r'<[^>]+>', '', html)
    print(f"3. 复杂替换: {text_only}")
    
    # 4. 从非结构化文本中提取数据
    unstructured = "价格区间: 100-200元，尺寸: 15x20厘米"
    price_range = re.search(r'价格区间: (\d+)-(\d+)元', unstructured)
    size = re.search(r'尺寸: (\d+)x(\d+)厘米', unstructured)
    print(f"4. 从非结构化文本提取: 价格从 {price_range.group(1)} 到 {price_range.group(2)}，尺寸 {size.group(1)}x{size.group(2)}")

when_to_use_regex()

运行结果：

适合使用正则表达式的场景：
1. 提取格式化ID: ['ABC-12345', 'XYZ-67890']
2. 验证邮箱格式: [email protected] 是否有效? True
3. 复杂替换: 加粗文本 和 斜体文本
4. 从非结构化文本提取: 价格从 100 到 200，尺寸 15x20

2. 不适合使用正则表达式的场景

from bs4 import BeautifulSoup
import re

def when_not_to_use_regex():
    print("\n不适合使用正则表达式的场景：")
    
    # 1. 解析结构良好的HTML/XML
    html = """
    
        产品名称
        ¥99.99
        
            特性1
            特性2
        
    
    """
    
    print("1. 解析HTML:")
    print("  使用正则表达式(不推荐):")
    title_regex = re.search(r'(.*?)
', html)
    price_regex = re.search(r'(.*?)
', html)
    features_regex = re.findall(r'(.*?)
', html)
    print(f"  - 标题: {title_regex.group(1) if title_regex else 'Not found'}")
    print(f"  - 价格: {price_regex.group(1) if price_regex else 'Not found'}")
    print(f"  - 特性: {features_regex}")
    
    print("\n  使用BeautifulSoup(推荐):")
    soup = BeautifulSoup(html, 'lxml')
    title_bs = soup.find('h2').text
    price_bs = soup.find('p', class_='price').text
    features_bs = [li.text for li in soup.find_all('li')]
    print(f"  - 标题: {title_bs}")
    print(f"  - 价格: {price_bs}")
    print(f"  - 特性: {features_bs}")
    
    # 2. 简单的字符串操作
    print("\n2. 简单字符串操作:")
    text = "Hello, World!"
    
    print("  使用正则表达式(不推荐):")
    replaced_regex = re.sub(r'Hello', 'Hi', text)
    contains_world_regex = bool(re.search(r'World', text))
    print(f"  - 替换: {replaced_regex}")
    print(f"  - 包含'World'? {contains_world_regex}")
    
    print("\n  使用字符串方法(推荐):")
    replaced_str = text.replace('Hello', 'Hi')
    contains_world_str = 'World' in text
    print(f"  - 替换: {replaced_str}")
    print(f"  - 包含'World'? {contains_world_str}")
    
    # 3. 处理复杂的嵌套结构
    nested_html = """
    
        段落1
        
            嵌套段落
        
        段落2
    
    """
    
    print("\n3. 处理嵌套结构:")
    print("  使用正则表达式(困难且容易出错):")
    paragraphs_regex = re.findall(r'(.*?)
', nested_html)
    print(f"  - 所有段落: {paragraphs_regex}  # 无法区分嵌套层级")
    
    print("\n  使用BeautifulSoup(推荐):")
    soup = BeautifulSoup(nested_html, 'lxml')
    top_paragraphs = [p.text for p in soup.find('div').find_all('p', recursive=False)]
    nested_paragraphs = [p.text for p in soup.find('div').find('div').find_all('p')]
    print(f"  - 顶层段落: {top_paragraphs}")
    print(f"  - 嵌套段落: {nested_paragraphs}")

when_not_to_use_regex()

运行结果：

不适合使用正则表达式的场景：
1. 解析HTML:
  使用正则表达式(不推荐):
  - 标题: 产品名称
  - 价格: ¥99.99
  - 特性: ['特性1', '特性2']

  使用BeautifulSoup(推荐):
  - 标题: 产品名称
  - 价格: ¥99.99
  - 特性: ['特性1', '特性2']

2. 简单字符串操作:
  使用正则表达式(不推荐):
  - 替换: Hi, World!
  - 包含'World'? True

  使用字符串方法(推荐):
  - 替换: Hi, World!
  - 包含'World'? True

3. 处理嵌套结构:
  使用正则表达式(困难且容易出错):
  - 所有段落: ['段落1', '嵌套段落', '段落2']  # 无法区分嵌套层级

  使用BeautifulSoup(推荐):
  - 顶层段落: ['段落1', '段落2']
  - 嵌套段落: ['嵌套段落']

九、总结

正则表达式是网页爬虫中不可或缺的工具，特别适合处理以下场景：

提取特定格式的数据：如邮箱、电话号码、价格等
清洗和规范化文本：去除HTML标签、过滤特殊字符等
验证数据格式：检查数据是否符合特定模式
从非结构化或半结构化文本中提取信息

在使用正则表达式时，请记住以下最佳实践：

使用原始字符串：在Python中，使用r前缀表示原始字符串，避免转义问题
预编译频繁使用的正则表达式：使用re.compile()提高性能
使用命名分组增强可读性：使用(?P...)语法
注意贪婪与非贪婪匹配：使用*?、+?等非贪婪量词
适当使用标志：如re.IGNORECASE、re.DOTALL等
不要过度依赖正则表达式：对于结构化HTML，优先使用专门的解析库

下一篇：【Python爬虫详解】第六篇：处理动态加载的网页内容

你可能感兴趣的:(爬虫,Python,python,爬虫,正则表达式)

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
密码正则验证：大小写字母、数字、特殊字符至少8位 qq_21875331 渐进式的成长
正则表达式：密码必须包含大写字母、数字、特殊字符（四种里至少三种，且至少8位）写法一：/((^(?=.*[a-z])(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[a-z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
lesson20：Python函数的标注你的电影很有趣 python 开发语言
目录引言：为什么函数标注是现代Python开发的必备技能一、函数标注的基础语法1.1参数与返回值标注1.2支持的标注类型1.3Python3.9+的重大改进：标准集合泛型二、高级标注技巧与最佳实践2.1复杂参数结构标注2.2函数类型与回调标注2.3变量注解与类型别名三、静态类型检查工具应用3.1mypy：最流行的类型检查器3.2Pyright与IDE集成3.3运行时类型验证四、函数标注的工程价值与
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
Django学习笔记（一）
学习视频为：pythondjangoweb框架开发入门全套视频教程一、安装pipinstalldjango==****检查是否安装成功django.get_version()二、django新建项目操作1、新建一个项目django-adminstartprojectproject_name2、新建APPcdproject_namedjango-adminstartappApp注：一个project
Python 程序设计讲义（26）：字符串的用法——字符的编码睿思达DBA_WGX Python 讲义 python 开发语言
Python程序设计讲义（26）：字符串的用法——字符的编码目录Python程序设计讲义（26）：字符串的用法——字符的编码一、字符的编码二、`ASCII`编码三、`Unicode`编码四、使用`ord()`函数查询一个字符对应的`Unicode`编码五、使用`chr()`函数查询一个`Unicode`编码对应的字符六、`Python`字符串的特征一、字符的编码计算机默认只能处理二进制数，而不能处
【Python】pypinyin-汉字拼音转换工具鸟哥大大 Python python 自然语言处理
文章目录1.主要功能2.安装3.常用API3.1拼音风格3.2核心API3.2.1pypinyin.pinyin()3.2.2pypinyin.lazy_pinyin()3.2.3pypinyin.load_single_dict()3.2.4pypinyin.load_phrases_dict()3.2.5pypinyin.slug()3.3注册新的拼音风格4.基本用法4.1库导入4.2基本汉字
python编程第十四课：数据可视化小小源助手 Python代码实例信息可视化 python 开发语言
Python数据可视化：让数据“开口说话”在当今数据爆炸的时代，数据可视化已成为探索数据规律、传达数据信息的关键技术。Python凭借其丰富的第三方库，为数据可视化提供了强大而灵活的解决方案。本文将带你深入了解Matplotlib库的基础绘图、Seaborn库的高级可视化以及交互式可视化工具Plotly，帮助你通过图表清晰地展示数据背后的故事。一、Matplotlib库基础绘图Matplotlib
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
python学习笔记（汇总）朕的剑还未配妥 python学习笔记整理 python 学习开发语言
文章目录一.基础知识二.python中的数据类型三.运算符四.程序的控制结构五.列表六.字典七.元组八.集合九.字符串十.函数十一.解决bug一.基础知识print函数字符串要加引号，数字可不加引号，如print(123.4)print('小谢')print("洛天依")还可输入表达式，如print(1+3)如果使用三引号，print打印的内容可不在同一行print("line1line2line
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
PDF转Markdown - Python 实现方案与代码 Eiceblue Python Python PDF pdf python 开发语言 vscode
PDF作为广泛使用的文档格式，转换为轻量级标记语言Markdown后，可无缝集成到技术文档、博客平台和版本控制系统中，提高内容的可编辑性和可访问性。本文将详细介绍如何使用国产Spire.PDFforPython库将PDF文档转换为Markdown格式。技术优势：精准保留原始文档结构（段落/列表/表格）完整提取文本和图像内容无需Adobe依赖的纯Python实现支持Linux/Windows/mac
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
Python 程序设计讲义（25）：循环结构——嵌套循环
Python程序设计讲义（25）：循环结构——嵌套循环目录Python程序设计讲义（25）：循环结构——嵌套循环一、嵌套循环的执行流程二、嵌套循环对应的几种情况1、内循环和外循环互不影响2、外循环迭代影响内循环的条件3、外循环迭代影响内循环的循环体嵌套循环是指在一个循环体中嵌套另一个循环。while循环中可以嵌入另一个while循环或for循环。反之，也可以在for循环中嵌入另一个for循环或wh
基于Python引擎的PP-OCR模型库推理张欣-男 python ocr 开发语言 PaddleOCR PaddlePaddle
基于Python引擎的PP-OCR模型库推理1.文本检测模型推理#下载超轻量中文检测模型：wgethttps://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tartarxfch_PP-OCRv3_det_infer.tarpython3tools/infer/predict_det.py--image_dir=".
一个开源AI牛马神器 | AiPy，平替Manus，装完直接上手写Python！ Agent加载失败人工智能 python 开源算法 AI编程
还记得三个月前那个在闲鱼被炒到万元邀请码的Manus吗？现在你点官网，直接提示「所在地区不可用」了它走了，但更香的国产开源项目出现了：AiPy（爱派）。主打一个极致简化的AIAgent理念：别搞什么插件市场、Agent路由，直接给AI一个Python解释器，让它用自然语言写代码干活。听起来狠活？实际体验更狠：•完全本地化，界面傻瓜式操作，支持自然语言生成&执行Python任务；•数据清洗、文档总结
零数学基础理解AI核心概念：梯度下降可视化实战九章云极AladdinEdu 人工智能 gpu算力深度学习 pytorch python 语言模型 opencv
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。用Python动画演示损失函数优化过程，数学公式具象化读者收获：直观理解模型训练本质，破除"数学恐惧症"当盲人登山者摸索下山路径时，他本能地运用了梯度下降算法。本文将用动态可视化技术，让你像感受重力一样理解AI训练的核心原理——无需任何数学公式推导。一、梯度下降：AI世界的"万有
2025.07 Java入门笔记01 殷浩焕笔记
一、熟悉IDEA和Java语法（一）LiuCourseJavaOOP1.一直在用C++开发，python也用了些，Java是真的不熟，用什么IDE还是问的同事；2.一开始安装了jdk-23，拿VSCode当编辑器，在cmd窗口编译运行，也能玩；但是想正儿八经搞项目开发，还是需要IDE；3.安装了IDEA社区版：（1）IDE通常自带对应编程语言的安装包，例如IDEA自带jbr-21（和jdk是不同的
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他