正規表示式教程之匹配一組字元詳解

技術之光發表於2022-03-16

這篇文章主要介紹了正規表示式教程之匹配一組字元的方法,詳細分析了匹配一組字元的操作技巧與注意事項,具有一定參考借鑑價值,需要的朋友可以參考下


本文例項講述了正規表示式教程之匹配一組字元的方法。分享給大家供大家參考,具體如下:

注:在所有例子中正規表示式匹配結果包含在源文字中的 之間,有的例子會使用Java來實現,如果是java本身正規表示式的用法,會在相應的地方說明。所有java例子都在JDK1.6.0_13下測試通過。

一、匹配多個字元中的某一個

在上一篇《 》中的一個匹配以na或sa開頭的文字檔案例子中,使用的正規表示式是.a.\.txt。如果還有一個檔案是cal.txt,那麼也將會被匹配到。如果只想要匹配na或sa開頭的檔案,該怎麼辦呢?

既然只想找出n或s,使用可以匹配任何字元的.顯然是不行的。在正規表示式中,我們可以使用[和]來定義一個字符集合,在使用[和]來定義的字符集合裡,這兩個元字元之間的所有字元都是該集合的組成部分,字符集合的匹配結果是能夠與該集合裡的任何一個成員相匹配的的文字。

來看一個和上一篇相似一個例子:

文字:

sales.txt

na1.txt

na2.txt

sa1.txt

sanatxt.txt

cal.txt

正規表示式: [ns]a.\.txt

結果:

sales.txt

【na1.txt】

【na2.txt】

【sa1.txt】

sanatxt.txt

cal.txt

分析:這裡使用的正規表示式是以[na]開頭,這個集合將匹配字元n或s,不會匹配其他任何字元。[和]不匹配任何字元,它們只負責定義一個字符集合。接下來a匹配一個字元a,\.將匹配一個.字元本身,txt匹配txt字元本身,匹配結果與我們預期的一致。

但是,如果檔案中如果有一個檔案是usa1.txt,那麼它也會被匹配出來。這是位置匹配的問題,在後面將會討論到。

二、使用字符集合區間

上面的例子中,如果我們只想匹配以na或sa開頭,後面跟一個數字的檔案怎麼辦?正規表示式[ns]a.\.txt中,.將會匹配到任意一個字元,包括數字。這個問題可以使用字符集合來解決:

sales.txt

na1.txt

na2.txt

sa1.txt

san.txt

sanatxt.txt

cal.txt

正規表示式: [ns]a[0123456789]\.txt

結果:

sales.txt

【na1.txt】

【na2.txt】

【sa1.txt】

san.txt

sanatxt.txt

cal.txt

分析:從結果可以看到,我們只匹配出來以na或sa開頭,後面跟一個數字的檔案,而san.txt沒有被匹配出來,因為使用了字符集合[0123456789]來限定第三個字元只能是數字。

在正規表示式中,會很頻繁的使用到一些字元區間,比如0-9,a-z等等,為了簡化字元區間的定義,正規表示式提供了一個特殊的元字元-來定義字元區間。像上面這個例子,我們可以使用正規表示式來匹配:[ns]a[0-9]\.txt,結果與上面完全一樣。

字元區間不僅限於數字,像下面這些都是合法的字元區間:

[A-F]:匹配從A到F的所有大寫字母。

[A-Z]:匹配從A到Z的所有大寫字母。

[A-z]:匹配從ASCII字元A到ASCII字元z的所有字母。但這個區間一般不會用到,只是舉例說明。因為它們之間還包含著[和^等在ASCII中排列在Z和a之間的字元。

字元區間的首尾字元可以是ASCII字元列表中的任意字元。但在實際使用中,最常用的還是數字和字母字元區間。


注意:在定義字元區間的時候,不能讓區間的尾字元小於首字元(如[9-0]),這是不允許的。-作為元字元只能出現在[和]之間,如果在[和]之外的任何地方,它只是一個普通的字元,只會與-本身匹配。

在同一個字符集合中可以給出多個字元區間,比如:[0-9a-zA-Z]將匹配任意一個大小寫字母和數字。

來看一下匹配網頁中顏色的例子:

文字:

<span style="background-color:#3636FF;height:30px; width:60px;">測試</span>

正規表示式: #[0-9A-Fa-f] [0-9A-Fa-f] [0-9A-Fa-f] [0-9A-Fa-f] [0-9A-Fa-f] [0-9A-Fa-f]

結果:<span style="background-color: 【#3636FF】;height:30px; width:60px;">測試</span>


分析:在網頁中,顏色一般表示為一個以#開頭的RGB值,R代表紅色,G代表綠色,B代表藍色,任何一種顏色都可以通過RGB的不同組合調和出來。RGB值用16進值表示,如#000000代表白色,#FFFFFF代表黑色,#FF0000代表紅色。所以網頁中匹配顏色的正規表示式是以#開頭,後面跟6個相同的[0-9A-Fa-f]字符集合(這可以簡寫成#[0-9A-Fa-f]{6},會在後面的重複匹配中討論到)。

三、取非匹配

字符集合通常用來指定一組必須匹配其中之一的字元,但在某些場合,我們需要反過來做,給出一組不需要得到的字元,換句話說,除了在那個字符集合中的字元,其他的任意字元都可以匹配。

比如,要匹配以na或sa開頭,後面跟的不是數字的檔案:

文字:

sales.txt

na1.txt

na2.txt

sa1.txt

sanatxt.txt

san.txt

正規表示式: [ns]a[^0-9]\.txt

結果:

sales.txt

na1.txt

na2.txt

sa1.txt

sanatxt.txt

【san.txt】

分析:這個例子使用的模式正好與前面的相反,前面[0-9]只匹配數字,而這裡[^0-9]匹配的是非數字。

注意:^在[和]之間表示取非,如果出現在正規表示式的開頭,表示位置匹配匹配了,這將在後面討論到。同時,^的效果將作用於給定字符集合裡的所有字元或字元區間,而不僅限於緊跟在^字元後面的那一個字元或字元區間。如[^0-9a-z]表示不匹配任何數字或小寫字母。

四、小結

元字元[和]用於定義一個字符集合,其含義是必須與該集合裡的字元之一匹配。定義一個字符集合的方法有兩種:一是把所有的字元都列舉出來;二是利用元字元-以字元區間的方式給出。字符集合可以使用元字元^來取非,這將把給定的字符集合強行排除在匹配操作外,除了該字符集合裡的字元,其他字元都可以匹配。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015103/viewspace-2871359/,如需轉載,請註明出處,否則將追究法律責任。

相關文章