一文掌握python中正则表达式的各种使用

文章目录

    • 1. 正则表达式基础
      • 1.1 常用元字符
      • 1.2 基本用法
    • 2. 正则表达式高级功能
      • 2.1 分组捕获
      • 2.2 命名分组
      • 2.3 非贪婪匹配
      • 2.4 零宽断言
      • 2.5 编译正则表达式
      • 2.6 转义字符
    • 3. 常见应用场景
      • 3.1 验证邮箱格式
      • 3.2 提取 URL
      • 3.3 提取日期
      • 3.4 提取HTML中的链接
      • 3.5 提取HTML中的图片链接
      • 3.6 提取JSON中的特定字段
    • 4. 总结

在Python爬虫中, 正则表达式Regular Expression,简称Regex)是一种强大的工具,用于从文本中提取、匹配和替换特定的字符串模式。正则表达式可以帮助我们从HTML、JSON等格式的文本中提取所需的数据。

1. 正则表达式基础

1.1 常用元字符

正则表达式由一系列字符和特殊符号组成,用于定义匹配模式。以下是一些常用的正则表达式元字符:

  • . 匹配任意字符(除了换行符 \n)
  • ^ 匹配字符串的开头
  • $ 匹配字符串的结尾
  • * 匹配前面的字符 0 次或多次
  • + 匹配前面的字符 1 次或多次
  • ? 匹配前面的字符 0 次或 1 次
  • {n} 匹配前面的字符恰好 n 次
  • {n,} 匹配前面的字符至少 n 次
  • {n,m} 匹配前面的字符至少 n 次,至多 m 次
  • \d 匹配数字(等价于 [0-9])
  • \D

你可能感兴趣的:(2025年爬虫和逆向教程,python,正则表达式,爬虫)