Linux Shell 011-正则表达式

Linux Shell 011-正则表达式

本节关键字:Linux、Bash Shell、正则表达式
相关指令:grep、sed

正则表达式介绍

正则表达式(Regular Expression、regex或regexp,缩写为RE),也译为正规表示法、常规表示法,是一种字符模式,用于在查找过程中匹配指定的字符。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。

支持正则表达式的程序如:locate |find| vim| grep| sed |awk

正则表达式中的名词

元字符:指那些在正则表达式中具有特殊意义的专用字符,例如:点(.)、星(*)、问号(?)等
前导字符:位于元字符前面的字符,例如:ab**c***、aoo**o.**

正则表达式中常用的普通元字符

元字符 功能 备注
. 匹配除了换行符以外的任意单个字符
* 前导字符出现0次或连续多次
.* 任意长度字符 ab.*
^ 行首(以…开头) ^root
$ 行尾(以…结尾) bash$
^$ 空行
[] 匹配括号里任意单个字符或一组单个字符 [abc]
[^] 匹配不包含括号里任一单个字符或一组单个字符 [^abc]
^[] 匹配以括号里任意单个字符或一组单个字符开头 ^[abc]
^[^] 匹配不以括号里任意单个字符或一组单个字符开头 ^[^abc]

正则表达式中其它常用元字符

元字符 功能 备注
\< 取单词的头
\> 取单词的尾
\< \> 精确匹配
\{n\} 匹配前导字符连续出现n次
\{n,\} 匹配前导字符至少出现n次
\{n,m\} 匹配前导字符出现n次与m次之间
\( \) 保存被匹配的字符
\d 匹配数字(grep -P [0-9]
\w 匹配字母数字下划线(grep -P [a-zA-Z0-9_]
\s 匹配空格、制表符、换页符(grep -P [\t\r\n]

使用示例

需求:将10.1.1.1替换成10.1.1.254

# vim编辑器支持正则表达式
$ vim 1.txt
:%s#\(10.1.1\).1#\1.254#g 
:%s/\(10.1.1\).1/\1.254/g 

# sed支持正则表达式
$ sed -n 's#\(10.1.1\).1#\1.254#p' 1.txt

# 说明:
# 找出含有10.1.1的行,同时保留10.1.1并标记为标签1,
# 之后可以使用\1来引用它。最多可以定义9个标签,从左边开始编号,最左边的是第一个。

需求:将helloworld yourself 换成hellolilei myself

$ vim 1.txt
:%s#\(hello\)world your\(self\)#\1lilei my\2#g

$ sed -n 's/\(hello\)world your\(self\)/\1lilei my\2/p' 1.txt 
$ sed -n 's/helloworld yourself/hellolilei myself/p' 1.txt 
$ sed -n 's/\(hello\)world your\(self\)/\1lilei my\2/p' 1.txt 

Perl内置正则:

正则语法 说明
\d 匹配数字 [0-9]
\w 匹配字母数字下划线[a-zA-Z0-9_]
\s 匹配空格、制表符、换页符[\t\r\n]

使用示例

$ grep -P '\d' 1.txt
$ grep -P '\w' 2.txt
$ grep -P '\s' 3.txt

正则表达式扩展类常用元字符

扩展元字符 功能 备注
+ 匹配一个或多个前导字符 bo+ 匹配boo、 bo
? 匹配零个或一个前导字符 bo? 匹配b、 bo
| 匹配a或b
() 组字符(看成整体) (my|your)self:表示匹配myself或匹配yourself
{n} 前导字符重复n次
{n,} 前导字符重复至少n次
{n,m} 前导字符重复n到m次

使用示例

使用提示:

  • grep要用必须加 -E 或者使用egrep
  • sed要用必须加 -r
$ grep "root|ftp|adm" /etc/passwd
$ egrep "root|ftp|adm" /etc/passwd
$ grep -E "root|ftp|adm" /etc/passwd

$ grep -E 'o+gle' test.txt 
$ grep -E 'o?gle' test.txt 

$ egrep 'go{2,}' 1.txt
$ egrep '(my|your)self' 1.txt


# 使用正则过滤出文件中的IP地址:
$ grep '[0-9]\{2\}\.[0-9]\{1\}\.[0-9]\{1\}\.[0-9]\{1\}' 1.txt 
$ grep '[0-9]{2}\.[0-9]{1}\.[0-9]{1}\.[0-9]{1}' 1.txt 
$ grep -E '[0-9]{2}\.[0-9]{1}\.[0-9]{1}\.[0-9]{1}' 1.txt 
$ grep -E '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' 1.txt 
$ grep -E '([0-9]{1,3}\.){3}[0-9]{1,3}' 1.txt 

第二类正则表达式

表达式 功能 示例
[:alnum:] 字母与数字字符 [[:alnum:]]+
[:alpha:] 字母字符(包括大小写字母) [[:alpha:]]{4}
[:blank:] 空格与制表符 [[:blank:]]*
[:digit:] 数字 [[:digit:]]?
[:lower:] 小写字母 [[:lower:]]{4,}
[:upper:] 大写字母 [[:upper:]]+
[:punct:] 标点符号 [[:punct:]]
[:space:] 包括换行符,回车等在内的所有空白 [[:space:]]+

使用示例

$ grep -E '^[[:digit:]]+' 1.txt
$ grep -E '^[^[:digit:]]+' 1.txt
$ grep -E '[[:lower:]]{4,}' 1.txt

正则表达式总结

要找什么?

需求 解决方案
找数字 [0-9]
找字母 [a-zA-Z]
找标点符号 [[:punct:]]

如何找?

需求 解决方案
以什么为首 ^key
以什么结尾 key$
包含什么或不包含什么 [abc] ^[abc] [^abc] ^[^abc]

要找多少?

需求 解决方案
找前导字符出现0次或连续多次 ab*
找任意单个(一次)字符 ab.
找任意字符 ab.*
找前导字符连续出现几次 {n} {n,m} {n,}
找前导字符出现1次或多次 go+
找前到字符出现0次或1次 go?

正则表达式元字符一览表

元字符 功能 示例
* 前导字符出现0次或者连续多次 ab* abbbb
. 除了换行符以外,任意单个字符 ab. ab8 abu
.* 任意长度的字符 ab.* adfdfdf
[] 括号里的任意单个字符或一组单个字符 [abc][0-9][a-z]
[^] 不匹配括号里的任意单个字符或一组单个字符 [^abc]
^[] 匹配以括号里的任意单个字符开头 ^[abc]
[] 不匹配以括号里的任意单个字符开头
^ 行的开头 ^root
$ 行的结尾 bash$
^$ 空行
\{n\}和{n} 前导字符连续出现n次 [0-9]\{3\}
\{n,\}和{n,} 前导字符至少出现n次 [a-z]{4,}
\{n,m\}和{n,m} 前导字符连续出现n-m次 go{2,4}
\<\> 精确匹配单词 \
\(\) 保留匹配到的字符 \(hello\)
+ 前导字符出现1次或者多次 [0-9]+
? 前导字符出现0次或者1次 go?
| root|ftp
() 组字符 (hello|world)123
\d perl内置正则 grep -P \d+
\w 匹配字母数字下划线

正则表达式使用示例

1、查找不以大写字母开头的行(三种写法)。
$ grep '^[^A-Z]' 2.txt
$ grep -v '^[A-Z]' 2.txt
$ grep '^[^[:upper:]]' 2.txt

2、查找有数字的行(两种写法)
$ grep '[0-9]' 2.txt
$ grep -P '\d' 2.txt

3、查找一个数字和一个字母连起来的
$ grep -E '[0-9][a-zA-Z]|[a-zA-Z][0-9]' 2.txt

4、查找不以r开头的行
$ grep -v '^r' 2.txt
$ grep '^[^r]' 2.txt

5、查找以数字开头的
$ grep '^[0-9]' 2.txt

6、查找以大写字母开头的
$ grep '^[A-Z]' 2.txt

7、查找以小写字母开头的
$ grep '^[a-z]' 2.txt

8、查找以点结束的
$ grep '\.$' 2.txt

9、去掉空行
$ grep -v '^$' 2.txt

10、查找完全匹配abc的行
$ grep '\' 2.txt

11、查找A后有三个数字的行
$ grep -E 'A[0-9]{3}' 2.txt
$ grep  'A[0-9]\{3\}' 2.txt

12、统计root在/etc/passwd里出现了几次
$ grep -o 'root' 1.txt |wc -l

13、用正则表达式找出自己的IP地址、广播地址、子网掩码
$ ifconfig eth0|grep Bcast|grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}'
$ ifconfig eth0|grep Bcast| grep -E -o '([0-9]{1,3}.){3}[0-9]{1,3}'
$ ifconfig eth0|grep Bcast| grep -P -o '\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}'
$ ifconfig eth0|grep Bcast| grep -P -o '(\d{1,3}.){3}\d{1,3}'
$ ifconfig eth0|grep Bcast| grep -P -o '(\d+.){3}\d+'
$ egrep --color '[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}' /etc/sysconfig/network-scripts/ifcfg-eth0
$ egrep --color '[[:digit:]]{1,3}\.[[:digit:]]{1,3}\.[[:digit:]]{1,3}\.[[:digit:]]{1,3}' /etc/sysconfig/network-scripts/ifcfg-eth0 

14、找出文件中的ip地址并且打印替换成172.16.2.254
$ grep -o -E '([0-9]{1,3}\.){3}[0-9]{1,3}' 1.txt |sed -n 's/192.168.0.\(254\)/172.16.2.\1/p'

15、找出文件中的ip地址
$ grep -o -E '([0-9]{1,3}\.){3}[0-9]{1,3}' 1.txt

16、找出全部是数字的行
$ grep -E '^[0-9]+$' test

17、找出邮箱地址
$ grep -E '^[0-9]+@[a-z0-9]+\.[a-z]+$'

帮助说明

$ grep --help
# 匹配模式选择:
# Regexp selection and interpretation:
  -E, --extended-regexp     扩展正则
  -G, --basic-regexp        基本正则
  -P, --perl-regexp         调用perl的正则
  -e, --regexp=PATTERN      use PATTERN for matching
  -f, --file=FILE           obtain PATTERN from FILE
  -i, --ignore-case         忽略大小写
  -w, --word-regexp         匹配整个单词

你可能感兴趣的:(Linux,Shell脚本,linux,正则表达式,运维,centos,bash)