正規表示式簡明教程

說明：本文是我在公司技術講座上某次分享的總結。

正則是字串匹配模式，在處理文字時很有用。最常見的操作就是用於查詢和替換。

說到處理文字，其實我們每天敲的程式碼就是文字，因此常用的程式碼編輯器的查詢替換工具基本都支援正則語法的。

先說明一下，接下來的內容都以《We will rock you》的歌詞測試文字。

點選展開歌詞

Buddy, you're a boy make a big noise
Playing in the streets gonna be a big man someday
You got mud on your face
You big disgrace
Kicking your can all over the place
Singing
We will, we will rock you
We will, we will rock you
Buddy you're a young man, hard man
Shouting in the street gonna take on the world someday
You got blood on your face
You big disgrace
Waving your banner all over the place
We will, we will rock you

使用的正則測試工具是 Regex 101。

這裡建議讀者看的過程中，同時開啟該網站，把歌詞貼進去，每個案例都驗證一遍。也建議稍微改動一下正則，看看匹配結果仍是否與自己的理解一致。跟著動手，學習效果要好一些。

1. 精確匹配

正則是用來描述字串的一種模式（pattern），或者說規律。最平凡的用法，就是精確查詢。比如我要找到歌詞中的所有“the”。正則寫成 the 即可。

上圖只找到了一個 the，而不是所有的。這是因為正則本身是分兩部分的，一部分是模式，另一部分是修飾符（flags，或者叫標誌位）。一個常用的修飾符是 g，它單詞 global 的簡寫，表示全域性查詢。

此時，我們找到了所有“the”。接著我們再找所有“we”。

然而，同時我們也希望找到文字中“We”，w 字元是大寫的。此時可以用另外常見的識別符號 i，單詞 ignoreCase 或者 insensitive 的首字母，表示忽略大小寫。

無論 the 或 we，這種模式匹配都是精確匹配，如果正則只是輸入什麼就查詢什麼，那麼其存在的意義就沒有那麼大。而它的強大之處在於能實現模糊匹配。

2. 橫向模糊匹配

比如我們想找到歌詞中所有連續出現的“e”。

圖中正則形如 p{m,n}，表示 p 至少連續出現 m 到 n 次（包括m、n）。p 可以是一個子模式，不一定只是一個字元。

上圖中，為了測試我修改了部分歌詞。其中正則使用了括號，括號如你所料一樣，起到了高優先順序的作用。表示 noise 這個整體重複出現了 1 到 3 次。

不知道此時你是否有疑問，{1,3} 表示 1 到 3 次。為啥上面的匹配結果只有一個呢？而不是匹配到 3 個 noise。又或者 noisenoise 和 noise，這兩個結果呢？

這是因為量詞有貪婪和惰性之分。{1,3} 這個量詞是貪婪的，能滿足條件的話，它會盡可能多地匹配。可以在量詞的後面加個問號，讓其變為惰性的。

確實夠懶得的，找到一個就滿足了。量詞後面的這個問號，彷佛是在問量詞，“可以別再貪了嗎？”

量詞的含義清楚了，下來我們來看一些簡寫形式。

* 等價於{0,}。即任意多個。
+ 等價於{1,}。即至少一個
? 等價於{0,1}。即有一個或者沒有
{m} 等價於{m,m}

這裡要說明的是 ? 這時就可能兩個含義。即一個表示惰性模式，一個表示量詞。

其實二者很好區分，在量詞之後的 ? 才表示惰性匹配。比如正則 bo??y，第一個問號表示量詞 {0,1}，第二個表示量詞是惰性的。

量詞的存在，能讓正則可以模糊匹配，即很少的模式程式碼就能匹配一長串。我稱之為橫向模糊匹配。還有一種縱向的模糊匹配。

3. 縱向模糊匹配

假設歌詞中有幾處不小心把“rock”寫成“ruck”。我們需要找到二者，可以使用字符集 r[ou]ck。效果如下：

其中 [ou]，這種方括號括起來的模式就是字符集。它是一個集合，匹配“o”或者“u”。又比如我們要找到所有 a 到 e 的字元，可以寫成 [abcde]。這種連續的字元也可以簡寫成 [a-e]。

字符集是集合的意思，而集合有補集。正則裡在方括號內開頭加上脫字元，來表示取反[^a-e]，匹配一個不是 a、b、c、d、e 的某字元。

字元類的含義搞清楚了，下來我們來看一下常見的簡寫形式

\d 等價於 [0-9]。表示是一位數字。digit 的首字母。
\D 等價於 [^0-9]。
\w 等價於 [0-9a-zA-Z_]。表示數字、大小寫字母和下劃線。word的首字母，也稱單詞字元。
\W 等價於 [^0-9a-zA-Z_]。
\s 等價於 [ \t\v\n\r\f]。表示空白符，包括空格、水平製表符、垂直製表符、換行符、回車符、換頁符。記憶方式：s是space character的首字母。
\S 等價於 [^ \t\v\n\r\f]。
. 等價於[^\n\r\u2028\u2029]。點是萬用字元，表示幾乎任意字元。

字符集是正則實現模糊匹配的另外一種方式，具體到某一位上，要匹配的字元可以是不確定的，我稱之為縱向模糊匹配。

量詞和字元組掌握了話，基本上正則問題能解決一多半。這裡再舉一個例子。找到所有以“ing”結尾的單詞。