shell高階-----正規表示式

秦廣王發表於2019-05-30

正規表示式概述

正規表示式是一種定義的規則,Linux工具可以用它來過濾文字。

基礎正規表示式

純文字

[root@node1 ~]# echo "this is a cat" | sed -n '/cat/p'
this is a cat
[root@node1 ~]# echo "this is a cat" | gawk  '/cat/{print $0}'
this is a cat

 正規表示式的匹配非常挑剔,尤其需要記住,正規表示式區分大小寫。

特殊字元

正規表示式識別的特殊字元包括:

.*[]^${}\+?|()

如果要使用某個特殊字元作為文字字元,就必須轉義,一般用(\)來轉義。

[root@node1 ~]# echo "this is  a $" | sed -n '/\$/p'
this is  a $

錨字元

有兩個特殊字元可以用來將模式鎖定在資料流的行首或行尾

脫字元(^)定義從資料流中文字行的行首開始的模式。

美元符($)定義了行尾錨點。

[root@node1 ~]# echo "this is a cat" | sed -n '/^this/p'
this is a cat
[root@node1 ~]# echo "this is a cat" | sed -n '/cat$/p' 
this is a cat

在一些情況下可以組合使用這兩個命令

1.比如查詢只含有特定文字的行

[root@node1 ljy]# more test.txt            
this is a dog
what
how
this is a cat
is a dog
[root@node1 ljy]# sed -n '/^is a dog$/p' test.txt 
is a dog
[root@node

2.兩個錨點組合起來,可以直接過濾空白行

[root@node1 ljy]# more test.txt           
this is a dog
what
how

this is a cat
is a dog
[root@node1 ljy]# sed  '/^$/d' test.txt    
this is a dog
what
how
this is a cat
is a dog

點號字元

點號用來匹配除換行符外的任意單個字元,他必須匹配一個字元。

[root@node1 ljy]# more test.txt 
this is a dog
what
how
this is a cat
is a dog
at
[root@node1 ljy]# sed -n '/.at/p' test.txt 
what
this is a cat

字元組

限定待匹配的具體字元,使用字元組。使用方括號來定義一個字元組。

[root@node1 ljy]# more test.txt 
this is a dog
this is a Dog
this is a DoG
this is a cat
[root@node1 ljy]# sed -n '/[dD]og/p' test.txt 
this is a dog
this is a Dog
[root@node1 ljy]# sed -n '/[dD]o[gG]/p' test.txt  
this is a dog
this is a Dog
this is a DoG

排除型字元組

要排除某些特定的元素,要在字元組前面加個脫字元。

[root@node1 ljy]# sed -n '/[dD]o[gG]/p' test.txt  
this is a dog
this is a Dog
this is a DoG
[root@node1 ljy]# sed -n '/[^D]og/p' test.txt       
this is a dog

區間

正規表示式會包括此區間內的任意字元。

[root@node1 ljy]# more test.txt 
123123
1231
121222222
412345341613
vsdvs
qwer12344123
12345
34211
444444
[root@node1 ljy]# sed -n '/^[0-9][0-9][0-9][0-9][0-9]$/p' test.txt 
12345
34211

擴充正規表示式

問號

問號表明前面的字元出現0次或者1次,僅限於此。

[root@node1 ljy]# echo "bat" | gawk '/ba?t/{print $0}'  
bat
[root@node1 ljy]# echo "baat" | gawk '/ba?t/{print $0}'
[root@node1 ljy]# echo "bt" | gawk '/ba?t/{print $0}'  
bt

可以將問號和字元組一起使用

[root@node1 ljy]# echo "bt" | gawk '/b[ae]?t/{print $0}' 
bt
[root@node1 ljy]# echo "bat" | gawk '/b[ae]?t/{print $0}'
bat
[root@node1 ljy]# echo "bet" | gawk '/b[ae]?t/{print $0}' 
bet
[root@node1 ljy]# echo "baat" | gawk '/b[ae]?t/{print $0}'

加號

加號表明前面的字元可以出現一次或多次,但至少是1次。

[root@node1 ljy]# echo "baat" | gawk '/b[ae]+t/{print $0}' 
baat
[root@node1 ljy]# echo "bt" | gawk '/b[ae]+t/{print $0}'  
[root@node1 ljy]# echo "bt" | gawk '/ba+t/{print $0}'   
[root@node1 ljy]# echo "bat" | gawk '/ba+t/{print $0}'
bat
[root@node1 ljy]# echo "baat" | gawk '/ba+t/{print $0}'
baat

花括號

ERE中的花括號允許你為可重複的正規表示式規定上下限。

m,n最少出現m此,最多出現n次。

[root@node1 ljy]# echo "baat" | gawk '/b[ae]{1,2}t/{print $0}'  
baat
[root@node1 ljy]# echo "baaat" | gawk '/b[ae]{1,2}t/{print $0}'

管道符號

用邏輯or的方式指定正規表示式規則,其中一個條件符合要就即可。

表示式分組

正規表示式分組也可以用圓括號進行分組。

[root@node1 ljy]# echo "bat" | gawk '/b(a|e)t/{print $0}'           
bat
[root@node1 ljy]# echo "baat" | gawk '/b(a|e)t/{print $0}'
[root@node1 ljy]# echo "bet" | gawk '/b(a|e)t/{print $0}'  
bet

 

相關文章