正規表示式是很多程式設計師,甚至是一些有了多年經驗的開發者薄弱的一項技能。大家都很多時候都會覺得正規表示式難記、難學、難用,但不可否認的是正規表示式是一項很重要的技能,所有我將學習和使用正規表示式時的關鍵點整理如下,供大家參考。
不同語言中的正規表示式寫法有少許差異,本文將使用Javascript中的語法。
什麼是正規表示式?
正規表示式(Regular Expression或Regex),是用於定義某種特定搜尋模式的字元組合。正規表示式可用於匹配、查詢和替換文字中的字元,進行輸入資料的驗證,查詢英文單詞的拼寫錯誤等。
除錯工具
下面列出了幾款優秀的線上除錯工具,如果你想建立或者除錯正規表示式可能會需要。個人比較偏好Regex101,regex101支援在正規表示式的不同flavor之間切換、解釋你的正規表示式、顯示匹配資訊、提供常用語法參考等功能,非常強大。
開始
在Javascript中,一個正規表示式以 /
開頭和結尾,所以簡單至 /hello regexp/
就是一個正規表示式。
Flags(標誌符或修飾符)
Flags寫在結束的/
之後,可以影響整個正規表示式的匹配行為。常見的flags有:
-
g
:全域性匹配(global);正規表示式預設只會返回第一個匹配結果,使用標誌符g
則可以返回所有匹配 -
i
:忽略大小寫(case-insensitive);在匹配時忽略英文字母的大小寫 -
m
:多行匹配(multiline);將開始和結束字元(^和$)視為在多行上工作,即分別匹配每一行(由\n
或\r
分割)的開始和結束,而不只是只匹配整個輸入字串的最開始和最末尾處
Flags可以組合使用,如:
Character Sets(字符集合)
用於匹配字符集合中的任意一個字元,常見的字符集有:
-
[xyz]
:匹配"x"
或"y"
`"z"` -
[^xyz]
:補集,匹配除"x" "y" "z"
的其他字元 -
[a-z]
:匹配從"a"
到"z"
的任意字元 -
[^a-n]
:補集,匹配除"a"
到"n"
的其他字元 -
[A-Z]
:匹配從"A"
到"Z"
的任意字元 -
[0-9]
:匹配從"0"
到"9"
的任意數字
比如匹配所有的字母和數字可以寫成:/[a-zA-Z0-9]/
或者 /[a-z0-9]/i
。
Quantifiers (量詞)
在實際使用中,我們常常需要匹配同一型別的字元多次,比如匹配11位的手機號,我們不可能將 [0-9]
寫11遍,此時我們可以使用Quantifiers來實現重複匹配。
-
{n}
:匹配n
次 -
{n,m}
:匹配n-m
次 -
{n,}
:匹配>=n
次 -
?
:匹配0 || 1
次 -
*
:匹配>=0
次,等價於{0,}
-
+
:匹配>=1
次,等價於{1,}
Metacharacters(元字元)
在正規表示式中有一些具有特殊含義的字母,被稱為元字元,簡言之,元字元就是描述字元的字元,它用於對字元表示式的內容、轉換及各種操作資訊進行描述。
常見的元字元有:
-
\d
:匹配任意數字,等價於[0-9]
-
\D
:匹配任意非數字字元;\d
的補集 -
\w
:匹配任意基本拉丁字母表中的字母和數字,以及下劃線;等價於[A-Za-z0-9_]
-
\W
:匹配任意非基本拉丁字母表中的字母和數字,以及下劃線;\w
的補集 -
\s
:匹配一個空白符,包括空格、製表符、換頁符、換行符和其他Unicode空格 -
\S
:匹配一個非空白符;\s
的補集 -
\b
:匹配一個零寬單詞邊界,如一個字母與一個空格之間;例如,/\bno/
匹配"at noon"
中的"no"
,/ly\b/
匹配"possibly yesterday."
中的"ly"
-
\B
:匹配一個零寬非單詞邊界,如兩個字母之間或兩個空格之間;例如,/\Bon/
匹配"at noon"
中的"on"
,/ye\B/
匹配"possibly yesterday."
中的"ye"
-
\t
:匹配一個水平製表符(tab) -
\n
:匹配一個換行符(newline) -
\r
:匹配一個回車符(carriage return)
Special Characters (特殊字元)
正則中存在一些特殊字元,它們不會按照字面意思進行匹配,而有特殊的意義,比如前文講過用於量詞的?
、*
、+
。其他常見的特殊字元有:
-
\
:轉義字元,可以將普通字元轉成特殊字元。比如\w
;也可以將特殊字元轉成字面意思,比如\+
匹配"+"
-
.
:匹配任意單個字元,但是換行符除外:\n
,\r
,\u2028
或\u2029
;在字符集中([.]
),無特殊含義,即表示'.'
的字面意思 -
|
:替換字元(alternate character),匹配|
前或後的表示式。比如需要同時匹配"bear"
和"pear"
,可以使用/(b|p)ear/
或者/bear|pear/
;但是不能用/b|pear/
,該表示式只能匹配"b"
和"pear"
-
^
:匹配輸入的開始。比如,/^A/
不匹配"an Apple"
中的"A"
,但匹配"An apple"
中的"A"
-
$
:匹配輸入的結尾。比如,/t$/
不匹配"eater"
中的"t"
,但匹配"eat"
中的"t"
。^
和$
在表單驗證時常需要使用,因為需要驗證從開始到結尾的一個完整輸入,而不是匹配輸入中的某一段
Groups(分組)
-
(xyz)
:捕獲分組(Capturing Group),匹配並捕獲匹配項;例如,/(foo)/
匹配且捕獲"foo bar."
中的"foo"
。被匹配的子字串可以在結果陣列的元素 [1], ..., [n] 中找到,或在被定義的 RegExp 物件的屬性 $1, ..., $9 中找到 -
(?:xyz)
:非捕獲分組(Non-capturing Group),匹配但不會捕獲匹配項;匹配項不能再次被訪問到 -
\n
:n
是一個正整數,表示反向引用(back reference),指向正規表示式中第n個括號(從左開始數)中匹配的子字串;例如,/apple(,)\sorange\1/
匹配"apple, orange, cherry, peach."
中的"apple,orange,"
Assertion(斷言)
-
x(?=y)
:僅匹配被y
跟隨的x
;例如,/bruce(?=wayne)/
,如果"bruce"
後面跟著wayne
,則匹配之。/bruce(?=wayne|banner)/
,如果"bruce"
後面跟著"wayne"
或者banner
,則匹配之。但是,"wayne"
和"banner"
都不會在匹配結果中出現 -
x(?!y)
:僅匹配不被y
跟隨的x
;例如,/\d+(?!\.)/
只會匹配不被"."
跟隨的數字。
/\d+(?!\.)/.exec('3.141')
匹配 "141"
,而不是 "3.141"
應用
上面羅列出了這麼多正規表示式的語法和規則,可以在一定程度上幫助我們分析和理解一段正規表示式的作用,但是如何將這些規則組合並創造出有特定作用的表示式還需要我們自己多加練習,下面舉幾個例子來說明運用這些規則。
1. 匹配手機號碼
我們先從比較簡單的匹配手機號碼開始。目前國內的手機號碼是1(3/4/5/7/8)
開頭的11位數字,因此手機號碼的正則可以分解為以下幾部分:
- 以
1
開頭:/^1/
- 第2位為
3、4、5、7、8
中的一個:/[34578]/
或/(3|4|5|7|8)/
- 剩餘3-11位均為數字,並以數字結尾:
/\d{9}$/
組合起來即為 /^1[34578]\d{9}$/
或 /^1(3|4|5|7|8)\d{9}$/
,因為使用捕獲括號存在效能損失,所以推薦使用第一種寫法。
2. 匹配電子郵件
標準的電子郵件組成為 <yourname>@<domain>.<extension><optional-extension>
,
每部分的格式標準為(進行了相應的簡化,主要為展示如何書寫正則):
- yourname:任意英文字母(a-z/A-Z)、數字(0-9)、下劃線(_)、英文句點(.)、連字元(-),長度大於0
- domain:任意英文字母(a-z/A-Z)、數字(0-9)、連字元(-),長度大於0
- extension:任意英文字母(a-z/A-Z),長度2-8
- optional-extension:
"."
開頭,後面跟任意英文字母(a-z/A-Z),長度2-8,可選
每部分的正規表示式為:
- yourname:
/[a-z\d._-]+/
- domain:
/[a-z\d-]+/
- extension:
/[a-z]{2,8}/
- optional-extension:
/(\.[a-z]{2,8})?/
組合起來形成最後的正規表示式:/^([a-z\d._-]+)@([a-z\d-]+)\.([a-z]{2,8})(\.[a-z]{2,8})?$/
;為了增加可讀性可以將每部分用"()"
包起來,並不要忘記起始和結束符 ^$
。
結語
今天關於正規表示式的普及就先到這兒,希望對大家以後寫正則能有一點幫助。關於本文中沒有涉及到的知識可以參考以下連結: