昭阳~

正则表达式基础

介绍

在 Shell 编程中，正则表达式（Regular Expression）和文本处理器（如 grep, sed, awk 等）是两个极其重要的工具，它们允许我们以复杂且高效的方式搜索、处理和操作文本数据。本博客将简要介绍 Shell 编程中正则表达式的使用，并展示如何使用 grep, sed, 和 awk 这三个强大的文本处理器。

正则表达式

什么是正则表达式呢？

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为 regex、regexp 或 RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。

基础正则表达式

基础正则表达式是常用正则表达式最基础的部分。在 Linux 系统中常见的文件处理工具中 grep 与 sed 支持基础正则表达式，而 egrep 与 awk 支持扩展正则表达式。

正则表达式grep

grep 是 Unix/Linux 系统中一个强大的命令行文本搜索工具，全称为 Global Regular Expression Print。它的核心功能是通过正则表达式（Regular Expression, Regex）在文件或输入流中快速匹配并输出符合条件的文本行。

1.grep的基本用法

grep [选项] "正则表达式模式" 文件名

默认行为：输出包含匹配模式的行。
无文件名时：从标准输入（如管道）读取数据。

简单示例：

grep "error" log.txt #在log.txt 中查找包含 "error"的行

2.grep支持的正则表达式的类型

grep 默认支持基础正则表达式（Basic Regular Expression, BRE），若需使用更强大的扩展正则表达式（Extended Regular Expression, ERE），需添加 -E 选项或使用 egrep 命令。

类型	语法支持	启用方式	示例
BRE	基础正则（需转义’+，？，等）	默认	grep "a\{2\}" file(匹配连续两个a）
ERE	扩展正则（直接使用'+,?,等）	grep -E或egrep	egrep "a{2}" file

3.常用正则表达式语法（以ERE为例）

1.字符匹配

. :匹配a，b或c。
[^abc]:匹配非a，b,c的字符。
\d:匹配数字（需注意：grep默认不支持\d，需用[0-9]或[:digit:]）

2.锚点（定位符）

^:匹配行首。
$:匹配行尾。
\<和\>:匹配单词的边界（如\hello\>匹配独立单词"hello"）

3.量词

*：前一个字符出现0次或多次。
+：重复一个或者一个以上的前一个字符
?：零个或者一个的前一个字符
{n}：精确匹配n次。
{n,}：至少匹配n次。
{n,m}：匹配n到m次。

4.分组与逻辑

()：查找组字符串。
()+:辨别多个重复组。
|：逻辑“或”（需-E)。

5.预定义字符类

[:alnum:]:字母和数字。
[:alpha:]:字母。
[:digit:]:数字。
[:lower:]:小写字母。
[:upper:]:大写字母。

4.grep的常用选项

选项	功能	示例
-i	忽略大小写	grep -i "Error" file
-v	反向匹配(输出不匹配的行)	grep -v "success" file
-o	仅输出匹配的文本(而非整行)	grep -o "\d{3}" file
-n	显示匹配行的行号	grep -n "error" file
-c	统计匹配行的数量	grep -c "warning" file
-r或-R	递归搜索目录下的所有文件	grep -r "pattern" /path/to/dir
-A num	输出匹配行及之后 num 行	grep -A 2 "error" file
-B num	输出匹配行及之前 num 行	grep -B 2 "error" file
-C num	输出匹配行及前后各 num 行	grep -C 2 "error" file

5.应用示例

1.查找包含特定单词的行

grep "apple" fruits.txt #查找包含"apple"的行

grep -i "Apple" fruits.txt #忽略大小写

2.使用量词匹配多个字符

egrep "go{2}d" file # 匹配 "good"（o 出现 2 次）
egrep "a+b" file # 匹配 "ab", "aab", "aaab" 等

3.匹配行首/行尾

grep "^start" file # 匹配以 "start" 开头的行
grep "end$" file # 匹配以 "end" 结尾的行

4.分组与逻辑或

grep "^start" file # 匹配以 "start" 开头的行
grep "end$" file # 匹配以 "end" 结尾的行

5.提取特定格式的数据

# 提取 IP 地址（简单示例）
egrep -o "([0-9]{1,3}\.){3}[0-9]{1,3}" access.log

6.反向匹配排除内容

grep -v "#" config.conf # 排除注释行（以 # 开头）

7.统计错误日志出现次数

grep -c "ERROR" app.log # 统计 "ERROR" 出现的行数

文本处理器sed

sed是一个强大而简单的文本解析转换工具，可以读取文本，并根据指定的条件对文本进行编辑(删除，替换，添加，移动等)，最后输出所有行或者仅输出处理的某些行。sed也可以在无交互的情况下实现相当复杂的文本处理操作，被广泛应用于Shell脚本中，用以完成各种自动化处理任务。

sed的工作流程主要包括读取，执行和显示三个过程。

读取：sed 从输入流（文件、管道、标准输入）中读取一行内容并存储到临时的缓冲区中（又称模式空间，pattern space）。
执行：默认情况下，所有的 sed 命令都在模式空间中顺序地执行，除非指定了行的地址，否则 sed 命令将会在所有的行上依次执行。
显示：发送修改后的内容到输出流。在发送数据后，模式空间将会被清空。

1.sed的基本语法

sed [选项] '命令' 文件名

常用选项：

选项	说明
-n	使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后，则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
-i	直接修改读取的文件内容，而不是输出到终端。
-e	直接在命令列模式上进行 sed 的动作编辑
-f	直接将 sed 的动作写在一个文件内， -f filename 则可以运行 filename 内的 sed 动作
-r	sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)

2.常用sed命令

1.替换命令s

语法：s/旧模式/替换内容/[修饰符]
功能：替换匹配到的文本。
修饰符：
- g：全局替换（一行中所有匹配项）。
- i：忽略大小写。
- p:替换后打印行（需配合-n选项）

示例：

sed 's/old/new/' file.txt # 每行第一个 "old" 替换为 "new"
sed 's/old/new/g' file.txt # 替换所有 "old" 为 "new"
sed 's/old/new/2' file.txt # 每行第二个 "old" 替换为 "new"
sed 's/old/new/gi' file.txt # 全局替换，忽略大小写

2.删除命令d

语法：[地址范围]d
功能：删除匹配的行。

示例：

sed '3d' file.txt # 删除第3行
sed '/pattern/d' file.txt # 删除包含 "pattern" 的行
sed '1,5d' file.txt # 删除1到5行

3.打印命令p

语法：[地址范围]p。
功能：显示打印匹配的行（需配合-n选项）。

示例：

sed -n '3p' file.txt # 仅打印第3行
sed -n '/pattern/p' file.txt # 打印包含 "pattern" 的行

4.插入/追加命令i和a

语法：
- i\插入内容：在匹配行前插入内容。
- a\追加内容：在匹配行后追加内容。

示例：

sed '3i\插入内容' file.txt # 在第3行前插入一行 "插入内容"
sed '/pattern/a\追加内容' file.txt # 在匹配行后追加一行

5.文件写入命令w

语法：[地址范围]w 文件名。
功能：将匹配的行写入指定文件。

示例：

sed '/error/w error.log' app.log # 将包含 "error" 的行写入 error.log

3.sed的地址范围

地址范围用于限定命令作用的行，可以是行号或正则表达式匹配。

1.单行地址

行号：sed '5s/old/new/'（仅第五行）。
正则匹配：sed '/pattern/s/old/new/'（匹配pattern的行）。

2.多行范围

行号范围：sed '2,5d'9（删除2到5行）。
正则范围：sed '/start/,/end/d'(删除从匹配start到end的行)。

3.特殊符号

$:最后一行(如sed '$d'删除最后一行)。
+N:相对行号（如sed '2,+3d' 删除第2行及之后3行）

4.结合正则表达式

sed默认支持基础正则表达式（BRE），通过-r或-E启用扩展正则表达式（ERE）。

常见用法：

替换日期格式：

sed -r 's/([0-9]{4})-([0-9]{2})-([0-9]{2})/\2\/\3\/\1/' dates.txt

将YYYY-MM-DD转换为MM/DD/YYY

删除空行：

sed '/^$/d' file.txt # 删除所有空行

提取特定内容：

sed -n 's/.*Name: $.*$ Age:.*/\1/p' data.txt

提取 "Name:"后的名字（假设格式为Name：Alice Age：30）。

文本处理器awk

AWK 是一种优良的文本处理工具。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。最简单地说，AWK 是一种用于处理文本的编程语言工具。

核心特点：

字段处理：自动分隔行到字段，支持自定义分隔符。
内置变量：如NR（当前行号），NF（当前行的字段数），FS（字段分隔符）等。
数学运算：直接支持算术和统计操作（如求和，平均值）。
关联数组：支持复杂数据结构的存储和操作。

1.awk的基本语法

awk '模式 {动作}’ 文件名

或编写多行脚本：

awk -f script.awk 文件名

常用选项：

选项	说明
-F	指定字段分隔符（如-F：，-F','）
-v	定义变量（如-v var=valur）
-f	从脚本文件读取命令

2.awk的常用模式与动作

1.默认行为（无模式）

awk '{print $0}' file.txt # 打印所有行（等价于 `cat`）

2.按行号过滤

awk 'NR == 3' file.txt # 打印第3行
awk 'NR >= 2 && NR <=5' file # 打印第2到5行

3.按字段值过滤

awk '$1 == "root"' /etc/passwd # 第1列为 "root" 的行
awk '$3 > 1000' /etc/passwd # 第3列大于1000的行

4.正则表达式匹配

awk '/error/ {print $2}' log.txt # 匹配含 "error" 的行，打印第2列
awk '$1 ~ /^192\.168/ {print $0}' ips.txt # 第1列以 "192.168" 开头的行

3.内置变量

$0	表示整个当前行
$1	每行的第一个字段
NF	字段数量变量
BR	每行的记录号，多文件记录递增
FNR	与NR类似，不过多文件记录不递增，每个文件都从1开始
\t	制表符
\n	换行符
FS	BEGIN时定义分隔符
RS	输入的记录分隔符，默认为换行符（即文本是按一行一行输入）
~	匹配，与==相比不是精确比较
！~	不匹配，不精确比较
==	等于，必须全部相等，精确比较
！=	不等于，精确比较
&&	逻辑与
\|\|	逻辑或
+	匹配时表示1个或1个以上
/[0-9][0-9]*/	两个或两个以上数字
/[0-9][0-9]*/	一个或一个以上数字
FILENAME	文件名
OFS	输出字段分隔符，默认也是空格，可以改为制表符等
ORS	输出的记录分隔符，默认为换行符，即处理结果也是一行一行输出到屏幕
-F'[:#/]'	定义三个分隔符

4.常用操作示例

1.打印特定列

awk '{print $1, $3}' file.txt # 打印第1列和第3列（默认空格分隔）
awk -F':' '{print $1, $7}' /etc/passwd # 以冒号分隔，打印用户名和Shell

2.自定义输出格式

awk '{printf "User: %-10s UID: %d\n", $1, $3}' /etc/passwd

3.条件过滤

# 筛选第2列大于50的行
awk '$2 > 50 {print $1, $2}' data.txt
# 结合逻辑运算符
awk '$1 == "admin" && $3 != "0" {print $0}' users.txt

4.统计与计算

# 计算第1列的总和
awk '{sum += $1} END {print sum}' data.txt
# 计算平均值
awk '{sum += $1; count++} END {print sum/count}' data.txt
# 统计每列的最大值
awk 'NR==1 {max=$1} $1>max {max=$1} END {print max}' data.txt

5. 文本处理

# 替换文本
awk '{gsub("old", "new"); print}' file.txt
# 提取IP地址
awk '{match($0, /([0-9]{1,3}\.){3}[0-9]{1,3}/); print substr($0, RSTART, RLENGTH)}' log.txt

6.使用关联数组

# 统计单词频率
awk '{for (i=1; i<=NF; i++) count[$i]++} END {for (word in count) print word, count[word]}' text.txt

密码正则验证：大小写字母、数字、特殊字符至少8位 qq_21875331 渐进式的成长
正则表达式：密码必须包含大写字母、数字、特殊字符（四种里至少三种，且至少8位）写法一：/((^(?=.*[a-z])(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[A-Z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^(?=.*\d)(?=.*[a-z])(?=.*\W)[\da-zA-Z\W]{8,16}$)|(^
JavaScript正则表达式去除括号但保留内容与去除括号与内容 Selicens javascript 正则表达式
项目上碰到一个需求，是取多个递增文件的文件名，类似于test(1).txt、test(2).txt，但是不需要括号，只要test1、test2这种格式，最开始想到的办法就是js里的replace替换，先上一个比较笨但是也能实现效果的例子letname="test(1).txt"letdata=name.split('.')[0].replace('(','').replace(')','')con
《剑指offer》-数据结构篇-哈希表/数组/矩阵/字符串小新学习屋数据结构与算法数据结构 leetcode 哈希表
题目第一个只出现一次的字符数组中的重复的数字字符串流中第一个不重复的字符数组中只出现一次的数字调整数组顺序使奇数位于偶数前面数组中出现次数超过一半的数字把数组排成最小的数顺时针打印矩阵把字符串转换为整数表示数值的字符串左旋转字符串(矩阵翻转)替换空格正则表达式匹配代码实现第一个只出现一次的字符题目描述：在一个字符串(0len(numbers)/2:returnreselse:return0把数组排
【通识】正则表达式
1.正则表达式基本概念：正规表示/常规表示（RegularExpress)1）使用单个字符串描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器中，正则表达式通常被用来检索、替换符合某个模式的文本2）元字符和描述元字符描述\将下一个字符标记为特殊字符、或一个原义字符、或一个向后引用、或一个八进制等112.正则表达式的应用1111511
正则表达式 hui函数 python 正则表达式
正则表达式Python中提供了多种解析网页数据的技术，正则表达式就是其中的一种，其他技术还包括：XPath、BeautifulSoup。什么是正则表达式正则表达式是一种文本模式，该模式描述了匹配字符串的规则，用于检索字符串中，是否有符合该模式的子串，或者对匹配到的子串进行替换。正则表达式的优点是功能强大，应用广泛，缺点是只适合匹配文本的字面意义，而不适合匹配文本意义。例如，正则表达式匹配嵌套了HT
linux命令grep的实际应用
grep是Linux/Unix系统中用于文本搜索的超级工具，其核心功能是使用正则表达式匹配文本行并输出结果。下面结合具体场景，展示其强大而实用的应用技巧：一、基础搜索与过滤快速定位文件内容：grep"error"/var/log/syslog#查找syslog中所有含"error"的行grep-i"timeout"application.log#-i忽略大小写，查找"timeout"统计匹配行数：
文件改名软件Rename Pro：文件 / 目录混合改批量改名提升效率
各位文件管理小能手们！今天给你们介绍一款超神的软件——RenamePro！它就像是文件改名界的超级英雄，功能强大到离谱！啥基础操作，像添加、替换、删除、加序编号啥的，那都不在话下。软件下载地址安装包还有正则表达式、文件名编辑器这些高级玩法，它也能轻松拿捏！它不仅能给文件改名，还能对文件目录和文件混合着改名。而且，Exif标签、GPS标签，甚至MSOffice文档引言写入这些功能，它也一应俱全。能批
正则表达式 Dylan_muc 字符串正则表达式 mysql 数据库
一、什么是正则表达式？正则表达式是一种用于描述、匹配、检索和替换符合某些规则的文本字符串的工具。它像是一种简洁的“模式语言”，可以快速定位和操作大量文本中的特定内容。简而言之，正则表达式就是用特定的语法来描述一类字符串的规则，然后用这个规则去匹配、查找、筛选实际的文本内容。二、正则表达式的基础语法1.元字符（Metacharacters）正则表达式由普通字符（如a、1、X）和特殊字符（元字符）组成
在 Go 语言中使用正则表达式提取所有匹配字符串的方法详解 gopher.guo golang golang 正则表达式数据库
在Go语言中使用正则表达式提取所有匹配字符串的方法详解正则表达式（RegEx）是一种强大的文本处理工具，而在Go语言中，官方regexp标准库提供了完整的正则功能。一个常见需求是：从字符串中提取出所有符合某种模式的内容，比如所有邮箱地址、所有数字、所有HTML标签等。本文将介绍如何在Go中使用正则表达式一次性提取所有匹配项，并提供详细示例。一、核心函数：FindAllString与FindAllS
正则表达式
正则表达式是一种用来匹配字符串的规则语言。它常用于：检查输入是否合法（如用户名、邮箱、密码）从字符串中提取内容替换字符串中的某些部分正则意义示例匹配a匹配字符aa匹配“a”.任意单个字符.匹配“a”、“1”、”@”等\d任意数字[0-9]\d匹配“3”\w字母、数字、下划线[A-Za-z0-9_]\w匹配“a”、“5”、”_”\s空白符（空格、换行等）""、\n正则意义示例匹配*出现0次或多次a*
python中的一些常见库，及其用法安逸逸逸逸 python 开发语言
1.Python库的概念和重要性Python库是预先编写好的模块或代码集合，旨在为开发者提供特定功能的复用性代码。它们通常由函数、类和方法组成，可以被导入到你的项目中使用。python库分为标准库和第三方库两种标准库（StandardLibrary）：Python自带的库，包含了各种内置模块，如操作系统接口、文件I/O、字符串处理、正则表达式等。这些库无需额外安装，可以直接在Python中使用。第
ECMAScript 2025 (ES16) 核心新特性（8项） Web - Anonymous ES6 ecmascript 前端 javascript
ECMAScript2025(ES16)于2025年6月正式发布，并引入了8项核心新特性，显著地提升了JavaScript的开发效率和表达能力。在此列举其关键特性解析及浏览器支持情况。目录一、异步与错误处理1、Promise.try()二、数据结构增强2、Set集合方法3、同步迭代器辅助方法三、模块与数据处理4、JSON模块导入5、延迟模块加载(deferimport)四、正则表达式增强6、Reg
C# 正则表达式 lly202406 开发语言
C#正则表达式引言正则表达式（RegularExpression）是一种用于处理字符串的强大工具，它可以快速地匹配、查找、替换字符串中的特定模式。在C#中，正则表达式被广泛应用于字符串处理、数据验证、网络编程等领域。本文将详细介绍C#正则表达式的基本概念、语法、应用场景以及一些常用技巧。正则表达式的基本概念正则表达式由字符集、量词、修饰符等组成。以下是一些基本概念：字符集：表示一组字符，可以是单个
python的正则表达式小鬼客
python提供了实现正则表达式的re模块。正则表达式的匹配字符：元字符描述\将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如，“\\n”匹配\n。“\n”匹配换行符。序列“\\”匹配“\”而“\(”则匹配“(”。即相当于多种编程语言中都有的“转义字符”的概念。^匹配输入字行首。如果设置了RegExp对象的Multiline属性，^也匹配“\n”或“\r”之后的位置。$匹配输入行尾。如
Python代码库之正则表达式提出字符串内容(含demo源码) iCloudEnd
importredefgetSearch(mstr,d):v=''m=re.search(mstr,d,re.I)ifm:v=m.group(1)returnvd="拼音：bìng"mstr=r"拼音：(.*?)<"pinyin=getSearch(mstr,d).strip()更多精彩代码请关注我的专栏reportlab教程和源码大全python源码大全Sqlite教程和SQL语句请关注我的专栏
reflections java_「reflections」java 非常好用的反射框架Reflections - seo实验室 weixin_39878855 reflections java
reflectionsreflections通过扫描classpath，索引元数据，并且允许在运行时查询这些元数据。使用Reflections可以很轻松的获取以下元数据信息：1)获取某个类型的所有子类；比如，有一个父类是TestInterface，可以获取到TestInterface的所有子类。2)获取某个注解的所有类型/字段变量，支持注解参数匹配。3)使用正则表达式获取所有匹配的资源文件4)获取
【原生JS】前端JS字符串最常用 20 道面试题总结（含详细代码解析）全栈前端老曹前端 javascript 开发语言面试 vue react.js ecmascript
原生JavaScript字符串最常用20道面试题总结（含详细代码解析）字符串是前端开发中最常见的数据类型之一，也是各大公司高频考察点。以下是老曹总结的原生JS字符串相关的20道高频面试题，涵盖字符串操作、正则表达式、性能优化、常见陷阱等多个方面，每道题都配有详细的代码示例和讲解。面试题目录序号题目考察点1slice,substring,substr的区别？截取方法2如何判断一个字符串是否包含另一个
Jmeter(10)：json提取器元件及jsonpath介绍奔跑在路上you Jmeter_接口测试 Jsonpath jmeter json
json提取器元件介绍：json提取器与正则表达式提取器功能类似，也是用来截取响应信息的部分保存到指定的变量中去，不同的是，它只能用来处理响应正文，并且响应正文必须是json格式的。它的优势是能更快更灵活的截取json格式文本中的内容。json提取器在jmeter5.2.1版本中部分字段没有汉化过来。路径：右击http请求——后置处理器——json提取器如下图所示：json提取器元件字段介绍：名称
正则表达式先知后行。正则表达式
正则表达式（RegularExpression，简称Regex）是一种用于匹配、查找、替换文本模式的强大工具，广泛应用于编程、文本编辑（如Vim、VSCode）和数据处理（如Python、JavaScript）。以下是核心知识点和常见用法：1.基本语法符号说明示例.匹配任意字符（除换行符\n）a.c→"abc","ac"\d匹配数字（等价于[0-9]）\d\d→"42"\w匹配单词字符（字母、数字
python基础TASK5 微_e569
1.类和对象类：一些具有相同特性的对象的抽象。对象：类的具像(一个实例)。2.正则表达式正则表达式描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。3.re模块re模块使Python语言拥有全部的正则表达式功能。re.search扫描整个字符串并返回第一个成功的匹配。re.sub用于替换字符串中的匹配项。4.datetime模块
常用正则表达式嘻洋洋
[]中括号匹配这个[]集合中的任一一个字符,[a-z]匹配小写字母。相反意思：使用^，[^xyz]不匹配这个集合中的任何一个字符{}大括号用于匹配次数，结合中括号使用比较多。{n}精确匹配n次{n,}匹配n次以上{n,m}匹配n-m次中括号和大括号综合使用场景//用户名是小写字母，长度不超过20个字符[a-z]{1,15}//qq号码：最低5位数，最高14位数。全部是数字，不能是0开头[1-9][
ABAP中正则表达式语法,用法以及完整示例小赫不吃姜 abap 正则表达式 sap abap 开发语言
目录1.ABAP中的正则表达式语法基础语法元素1.1字符匹配1.2预定义字符类1.3位置锚点1.4量词（重复匹配）1.5分组与捕获1.6特殊构造零宽断言模式修饰符2.基本用法2.1创建正则表达式对象2.2创建匹配器2.3简写形式3.常用方法3.1检查是否匹配3.2查找所有匹配项3.3获取匹配组4.实用实例4.1验证电子邮件格式4.2提取日期4.3分割字符串4.4正则表达式解析主要结构详细解析整数部
Python 入门手札：从 0 到会--第九天Python的模块化编程--模块、包以及常见系统模块和第三方模块总结
目录一、模块1.模块化编程（ModularProgramming）2.什么是模块（Module）3.模块的分类3.1内置模块（标准库模块）3.1.1.与操作系统交互3.1.2.文件与数据处理3.1.3.正则表达式与文本处理3.1.4.数学与随机数3.1.5.时间与日期3.1.6.数据结构与算法3.1.7.网络与服务3.1.8.异常与调试3.2第三方模块3.2.1.科学计算与数据分析3.2.2.机器
掌握正则表达式：在Python中检测重复词的实战演练 Kimgoeunlaogong
本文还有配套的精品资源，点击获取简介：正则表达式是IT领域中用于文本处理的强大工具，本示例将介绍如何使用正则表达式检测字符串中的重复词，这在数据清洗、文本分析和日志处理等场景下非常有用。通过Python的re模块，我们将详细介绍检测重复词的步骤，包括字符串的处理、单词频率的统计以及重复词的筛选和输出。同时，解释如何使用不同的正则表达式元字符和修饰符来满足特定需求，例如不区分大小写或处理特殊字符。此
split() 函数在 Java、JavaScript 和 Python 区别 CATTLECODE python java
split()函数在Java、JavaScript和Python中均用于字符串分割，但在语法、参数设计和行为上存在显著差异。以下是三者的核心区别及使用示例：1.语法与参数设计语言语法参数说明JavaString.split(regex,limit)regex：必须为正则表达式（需转义特殊字符如.、`JavaScriptstr.split(separator,limit)separator：支持字符
linux正则提取字符串,正则表达式 – shell脚本如何使用正则表达式提取字符串... weixin_39747577 linux正则提取字符串
使用bashregularexpressions：re="http://([^/]+)/"if[[$name=~$re]];thenecho${BASH_REMATCH[1]};fi编辑–OP要求解释语法。Regularexpressionsyntax是一个很大的话题，我无法在这里全面解释，但我会尝试解释足够的理解这个例子。re="http://([^/]+)/"这是存储在bash变量中的正则表达
Java 正则表达式详解 BigData_Hubert java基础正则表达式 regex java
正则表达式乍一看上去是一堆繁琐的、无规律的、令人头大的字符串，但是其简单易学，适用于各种语言；当你了解他之后，你就会知道它的强大。很多程序设计语言都支持用正则表达式来进行字符串的操作。正则表达式简介初识正则表达式正则表达式是使用单个字符串来描述、匹配一系列规则的字符串。正则表达式并不仅限于某一种语言（几乎所有的语言都有字符串），在每种语言中有细微的差别。一个正则表达式字符串：^p[a-zA-Z_]
Java String 正则表达式设计模式包装类 Object类自动拆箱额么么么么 java 正则表达式设计模式
其它API（ApplicationProgramingInterface）应用程序接口（功能）,我们java讲解最常用的一些功能。API作用：API表示的是功能,学习API可以快速进行编程开发。API设计初衷,设计者将复杂的业务逻辑,封装成方法,供调用者更好的使用。对于开发者而言,不需要关注功能的具体逻辑实现,只需要知道如何使用即可。Java提供了很多的包,有一些包需要导入，有一些不需要导入:1.
19、Java正则表达式与字符集详解杠精协会主席 Java NIO：革新I/O处理的新范式 Java 正则表达式 Pattern
Java正则表达式与字符集详解1.Java正则表达式相关类在JavaJ2SE1.4版本中，引入了一些期待已久的正则表达式类，下面为你详细介绍：-CharSequence：这是一个新的接口，由多个类实现，用于以抽象的方式描述字符序列。-Pattern：该类将正则表达式封装在一个不可变的对象实例中。可以通过编译表达式字符串来创建实例，同时还有一些静态实用方法用于一次性匹配。importjava.uti
华为服务器管理工具（Intelligent Platform Management Interface）小小玫瑰大智慧华为服务器运维
一、核心功能与技术架构硬件级监控与控制全维度传感器管理：实时监测CPU、内存、硬盘、风扇、电源等硬件组件的温度、电压、转速等参数，支持超过200种传感器类型。例如，通过IPMI命令ipmitoolsdrelist可快速获取服务器传感器状态，并通过正则表达式提取关键指标。远程操作能力：支持远程开关机、重启、BIOS设置调整、固件升级等操作，即使服务器操作系统崩溃或网络中断，仍可通过独立BMC芯片实现
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

正则表达式基础

介绍

正则表达式

基础正则表达式

正则表达式grep

1.grep的基本用法

2.grep支持的正则表达式的类型

3.常用正则表达式语法（以ERE为例）

1.字符匹配

2.锚点（定位符）

3.量词

4.分组与逻辑

5.预定义字符类

4.grep的常用选项

5.应用示例

1.查找包含特定单词的行

2.使用量词匹配多个字符

3.匹配行首/行尾

4.分组与逻辑或

5.提取特定格式的数据

6.反向匹配排除内容

7.统计错误日志出现次数

文本处理器sed

1.sed的基本语法

2.常用sed命令

1.替换命令s

2.删除命令d

3.打印命令p

4.插入/追加命令i和a

5.文件写入命令w

3.sed的地址范围

1.单行地址

2.多行范围

3.特殊符号

4.结合正则表达式

文本处理器awk

1.awk的基本语法

2.awk的常用模式与动作

1.默认行为（无模式）

2.按行号过滤

3.按字段值过滤

4.正则表达式匹配

3.内置变量

4.常用操作示例

1.打印特定列

2.自定义输出格式

3.条件过滤

4.统计与计算

5. 文本处理

6.使用关联数组

你可能感兴趣的:(正则表达式)