詳解Javascript中正規表示式的使用

桃子夭夭發表於2015-11-02

正規表示式用來處理字串特別好用，在JavaScript中能用到正規表示式的地方有很多，本文對正規表示式基礎知識和Javascript中正規表示式的使用做一個總結。

第一部分簡單列舉了正規表示式在JavaScript中的使用場景；第二部分詳細介紹正規表示式的基礎知識，寫出一些例子方便理解。

本文的內容是我自己看完正規表示式寫法，和犀牛書中js正規表示式的章節後的總結，所以內容可能會有疏漏和不嚴謹的地方。若有大神路過發現文中錯誤的地方，歡迎斧正！

Javascript中正規表示式的使用

一個正規表示式可以認為是對一種字元片段的特徵描述，而它的作用就是從一堆字串中找出滿足條件的子字串。比如我在JavaScript中定義一個正規表示式：

var reg=/hello/ 或者 var reg=new RegExp("hello")

那麼這個正規表示式可以用來從一堆字串中找出 hello 這個單詞。而“找出”這個動作，其結果可能是找出第一個hello的位置、用別的字串替換hello、找出所有hello等等。下面就列舉一下JavaScript中可以使用正規表示式的函式，簡單介紹一下這些函式的作用，更復雜的用法會在第二部分中介紹。

String.prototype.search方法

用來找出原字串中某個子字串首次出現的index，沒有則返回-1

"abchello".search(/hello/);  //  3

String.prototype.replace方法

用來替換字串中的子串

"abchello".replace(/hello/,"hi");   //  "abchi"

String.prototype.split方法

用來分割字串

"abchelloasdasdhelloasd".split(/hello/);  //["abc", "asdasd", "asd"]

String.prototype.match方法

用來捕獲字串中的子字串到一個陣列中。預設情況下只捕獲一個結果到陣列中，正規表示式有”全域性捕獲“的屬性時(定義正規表示式的時候新增引數g)，會捕獲所有結果到陣列中

"abchelloasdasdhelloasd".match(/hello/);  //["hello"]

"abchelloasdasdhelloasd".match(/hello/g);  //["hello","hello"]

作為match引數的正規表示式在是否擁有全域性屬性的情況下，match方法的表現還不一樣，這一點會在後邊的正規表示式分組中講到。

RegExp.prototype.test方法

用來測試字串中是否含有子字串

/hello/.test("abchello");  // true

RegExp.prototype.exec方法

和字串的match方法類似，這個方法也是從字串中捕獲滿足條件的字串到陣列中，但是也有兩個區別。

1. exec方法一次只能捕獲一份子字串到陣列中，無論正規表示式是否有全域性屬性

var reg=/hello/g;
reg.exec("abchelloasdasdhelloasd");   // ["hello"]

2. 正規表示式物件(也就是JavaScript中的RegExp物件)有一個lastIndex屬性，用來表示下一次從哪個位置開始捕獲，每一次執行exec方法後，lastIndex就會往後推，直到找不到匹配的字元返回null，然後又從頭開始捕獲。這個屬性可以用來遍歷捕獲字串中的子串。

var reg=/hello/g;
reg.lastIndex; //0
reg.exec("abchelloasdasdhelloasd"); // ["hello"]
reg.lastIndex; //8
reg.exec("abchelloasdasdhelloasd"); // ["hello"]
reg.lastIndex; //19
reg.exec("abchelloasdasdhelloasd"); // null
reg.lastIndex; //0

正規表示式基礎

元字元

上面第一節以/hello/為例，但是實際應用中可能會遇到這樣的需求：匹配一串不確定的數字、匹配開始的位置、匹配結束的位置、匹配空白符。此時就可以用到元字元。

元字元：

//匹配數字:  \d
"ad3ad2ad".match(/\d/g);  // ["3", "2"]
//匹配除換行符以外的任意字元:  .
"a\nb\rc".match(/./g);  // ["a", "b", "c"]
//匹配字母或數字或下劃線 ： \w
"a5_  漢字@!-=".match(/\w/g);  // ["a", "5", "_"]
//匹配空白符:\s
"\n \r".match(/\s/g);  //[" ", " ", ""] 第一個結果是\n，最後一個結果是\r
//匹配【單詞開始或結束】的位置 ： \b
"how are you".match(/\b\w/g);  //["h", "a", "y"] 
// 匹配【字串開始和結束】的位置:  開始 ^ 結束 $
"how are you".match(/^\w/g); // ["h"]

反義元字元，寫法就是把上面的小寫字母變成大寫的，比如，匹配所有不是數字的字元： \D

另外還有一些用來表示重複的元字元，會在下面的內容中介紹。

字元範圍

在 [] 中使用符號 - ，可以用來表示字元範圍。如：

// 匹配字母 a-z 之間所有字母
/[a-z]/
// 匹配Unicode中 數字 0 到 字母 z 之間的所有字元
/[0-z]/ 
// unicode編碼查詢地址：
//https://en.wikibooks.org/wiki/Unicode/Character_reference/0000-0FFF
//根據上面的內容，我們可以找出漢字的Unicode編碼範圍是 \u4E00 到 \u9FA5，所以我們可以寫一個正規表示式來判斷一個字串中是否有漢字
/[\u4E00-\u9FA5]/.test("測試");  // true

重複 & 貪婪與懶惰

首先來講重複，當我們希望匹配一些重複的字元時，就需要用到一些和重複相關的正規表示式，寫法如下

//重複n次 {n}
"test12".match(/test\d{3}/); // null
"test123".match(/test\d{3}/); // ["test123"]
//重複n次或更多次  {n,}
"test123".match(/test\d{3,}/); //  ["test123"]
//重複n到m次
"test12".match(/test\d{3,5}/); //  null
"test12345".match(/test\d{3,5}/);  // ["test12345"]
"test12345678".match(/test\d{3,5}/);  // ["test12345"]
// 匹配字元test後邊跟著數字，數字重複0次或多次
"test".match(/test\d*/); // ["test"]
"test123".match(/test\d*/); // ["test123"]
//重複一次或多次
"test".match(/test\d+/) ; // null
"test1".match(/test\d*/); //["test1"]
//重複一次或0次
"test".match(/test\d?/) ; // null
"test1".match(/test\d?/); //["test1"]

從上面的結果可以看到，字元test後邊跟著的數字可以重複0次或多次時，正規表示式捕獲的子字串會返回儘量多的數字，比如/test\d*/匹配 test123 ，返回的是test123，而不是test或者test12。

正規表示式捕獲字串時，在滿足條件的情況下捕獲儘可能多的字串，這就是所謂的“貪婪模式”。

對應的”懶惰模式“，就是在滿足條件的情況下捕獲儘可能少的字串，使用懶惰模式的方法，就是在字元重複標識後面加上一個 "?"，寫法如下

// 數字重複3~5次，滿足條件的情況下返回儘可能少的數字
"test12345".match(/test\d{3,5}?/);  //["test123"]
// 數字重複1次或更多，滿足條件的情況下只返回一個數字
"test12345".match(/test\d+?/);  // ["test1"]

字元轉義

在正規表示式中元字元是有特殊的含義的，當我們要匹配元字元本身時，就需要用到字元轉義，比如：

/\./.test("."); // true

分組 & 分支條件

正規表示式可以用 " () " 來進行分組，具有分組的正規表示式除了正規表示式整體會匹配子字串外，分組中的正規表示式片段也會匹配字串。

分組按照巢狀關係和前後關係，每個分組會分配得到一個數字組號，在一些場景中可以用組號來使用分組。

在 replace、match、exec函式中，分組都能體現不同的功能。

replace函式中，第二個引數裡邊可以用 $+數字組號來指代第幾個分組的內容，如：

" the best language in the world is java ".replace(/(java)/,"$1script"); // " the best language in the world is javascript "
"/static/app1/js/index.js".replace(/(\/\w+)\.js/,"$1-v0.0.1.js"); //"/static/app1/js/index-v0.0.1.js"    (\/\w+)分組匹配的就是 /index ，在第二個引數中為其新增上版本號

match函式中，當正規表示式有全域性屬性時，會捕獲所有滿足正規表示式的子字串

"abchellodefhellog".match(/h(ell)o/g); //["hello", "hello"]

但是當正規表示式沒有全域性屬性，且正規表示式中有分組的時候，match函式只會返回整個正規表示式匹配的第一個結果，同時會將分組匹配到的字串也放入結果陣列中：

"abchellodefhellog".match(/h(ell)o/); //["hello", "ell"]
// 我們可以用match函式來分解url，獲取協議、host、path、查詢字串等資訊
"http://www.baidu.com/test?t=5".match(/^((\w+):\/\/([\w\.]+))\/([^?]+)\?(\S+)$/);
// ["http://www.baidu.com/test?t=5", "http://www.baidu.com", "http", "www.baidu.com", "test", "t=5"]

exec函式在正規表示式中有分組的情況下，表現和match函式很像，只是無論正規表示式是否有全域性屬性，exec函式都只返回一個結果，並捕獲分組的結果

/h(ell)o/g.exec("abchellodefhellog"); //["hello", "ell"]

當正規表示式需要匹配幾種型別的結果時，可以用到分支條件，例如

"asdasd hi  asdad hello asdasd".replace(/hi|hello/,"nihao"); //"asdasd nihao  asdad hello asdasd"
"asdasd hi  asdad hello asdasd".split(/hi|hello/); //["asdasd ", "  asdad ", " asdasd"]

注意，分支條件影響它兩邊的所有內容，比如 hi|hello 匹配的是hi或者hello，而不是 hiello 或者 hhello

分組中的分支條件不會影響分組外的內容

"abc acd  bbc bcd ".match(/(a|b)bc/g); //["abc", "bbc"]

後向引用

正規表示式的分組可以在其後邊的語句中通過 \+數字組號來引用

比如

// 匹配重複的單詞
/(\b[a-zA-Z]+\b)\s+\1/.exec(" asd sf  hello hello asd"); //["hello hello", "hello"]

斷言

(?:exp) , 用此方式定義的分組，正規表示式會匹配分組中的內容，但是不再給此分組分配組號，此分組在replace、match等函式中的作用也會消失，效果如下：

/(hello)\sworld/.exec("asdadasd hello world asdasd")  // ["hello world", "hello"],正常捕獲結果字串和分組字串
/(?:hello)\sworld/.exec("asdadasd hello world asdasd")  // ["hello world"]

"/static/app1/js/index.js".replace(/(\/\w+)\.js/,"$1-v0.0.1.js"); //"/static/app1/js/index-v0.0.1.js"
"/static/app1/js/index.js".replace(/(?:\/\w+)\.js/,"$1-v0.0.1.js"); //"/static/app1/js$1-v0.0.1.js"

(?=exp) 這個分組用在正規表示式的後面，用來捕獲exp前面的字元，分組中的內容不會被捕獲，也不分配組號

/hello\s(?=world)/.exec("asdadasd hello world asdasd")  // ["hello "]

(?!exp) 和前面的斷言相反，用在正規表示式的後面，捕獲後面不是exp的字元，同樣不捕獲分組的內容，也不分配組號

/hello\s(?!world)/.exec("asdadasd hello world asdasd") //null

處理選項

javascript中正規表示式支援的正規表示式有三個，g、i、m，分別代表全域性匹配、忽略大小寫、多行模式。三種屬性可以自由組合共存。

// 全域性匹配  g 
"abchelloasdasdhelloasd".match(/hello/);  //["hello"]
"abchelloasdasdhelloasd".match(/hello/g);  //["hello","hello"]

//忽略大小寫 i
"abchelloasdasdHelloasd".match(/hello/g); //["hello"]
"abchelloasdasdHelloasd".match(/hello/gi); //["hello","Hello"]

在預設的模式下，元字元 ^ 和 $ 分別匹配字串的開頭和結尾處，模式 m 改變了這倆元字元的定義，讓他們匹配一行的開頭和結尾

"aadasd\nbasdc".match(/^[a-z]+$/g);  //null  字串^和$之間有換行符，匹配不上 [a-z]+ ,故返回null
"aadasd\nbasdc".match(/^[a-z]+$/gm);  // ["aadasd", "basdc"] ，改變^$的含義，讓其匹配一行的開頭和末尾，可以得到兩行的結果

JavaScript中正規表示式的使用
2018-03-01
JavaScript
Java中正規表示式的使用
2012-08-07
Java
JScript中正規表示式用法詳解 replace
2007-09-03
JS
javascript中正規表示式的基礎語法
2016-06-23
JavaScript
SQLSERVER中正規表示式封裝使用
2015-12-11
SQLServer封裝
Javascript正規表示式詳解（一）
2014-05-22
JavaScript
JS中正規表示式研究（一）
2015-10-14
JS
JS正規表示式使用詳解
2014-05-07
JS
正規表示式使用詳解(轉)
2007-08-11
postgres中正規表示式及轉義
2018-08-22
php中正規表示式中的特殊符號
2017-11-12
PHP符號
linux 中正規表示式中?號的作用
2024-03-04
Linux
JS 中正規表示式必知必會
2018-02-11
JS
詳解正規表示式
2020-07-21
正規表示式詳解
2017-08-25
Oracle SQL 語句中正規表示式的應用
2014-03-03
OracleSQL
C++ 11 中正規表示式使用示例及原始碼分析
2015-10-05
C++原始碼
正規表示式?:用法詳解
2017-03-15
Java 正規表示式詳解
2016-05-03
Java
grep正規表示式詳解
2015-09-01
java和js中正規表示式的用法和區別
2013-10-18
JavaJS
c#中正規表示式和集合的知識點
2012-07-27
C#
JavaScript的正規表示式
2017-10-21
JavaScript
JAVA中正規表示式匹配，替換，查詢，切割的方法
2016-08-24
Java
正規表示式分組詳解
2018-08-19
詳解 Python 正規表示式
2020-11-20
Python
MySQL-正規表示式詳解
2022-06-11
MySql
Python正規表示式詳解
2023-11-24
Python
Linux正規表示式詳解
2023-12-11
Linux
JS之正規表示式詳解
2017-09-21
JS
【JavaScript】正規表示式
2019-03-02
JavaScript
javascript正規表示式
2020-11-09
JavaScript
javascript–正規表示式
2016-02-26
JavaScript
JavaScript 正規表示式
2024-11-03
JavaScript
ABAP中正規表示式的簡單使用 --- 轉自老白的部落格 Barry.bai
2009-02-23
AI
Oracle中的正規表示式(及函式)詳解
2018-09-10
Oracle函式
正規表示式詳解及實戰
2018-11-18
Python 正規表示式模組詳解
2018-11-02
Python