正規表示式基礎知識

onepixel發表於2018-04-15

  ECMAScript 3 開始支援正規表示式,其語法和 Perl 語法很類似,一個完整的正規表示式結構如下:

var expression = / pattern / flags ;

  其中,模式(pattern)部分可以是任何簡單或複雜的正規表示式,可以包含字元類、限定符、分組、向前查詢以及反向引用。

  每個正規表示式都可帶有一或多個標誌(flags),用以標明正規表示式的行為,正規表示式支援下列 3 個標誌:

g: 表示全域性(global)模式,即模式將被應用於所有字串,而非在發現第一個匹配項時立即停止;

i : 表示不區分大小寫(case-insensitive)模式,即在確定匹配項時忽略模式與字串的大小寫;

m:表示多行(multiline)模式,即在到達一行文字末尾時還會繼續查詢下一行中是否存在與模式匹配的項。

  如果多個標誌同時使用時,則寫成:gmi 。

  正規表示式的建立有兩種方式: new RegExp(expression) 和 直接字面量。

// 使用直接字面量建立
var exp1 = /(^\s+)|(\s+$)/g;
// 使用RegExp物件建立
var exp2 = new RegExp('(^\\s+)|(\\s+$)', 'g');  

  exp1 和 exp2 是兩個完全等價的正規表示式,需要注意的是,傳遞給 RegExp 建構函式的兩個引數都是字串,不能把正規表示式字面量傳遞給 RegExp 建構函式。

  與其他語言中的正規表示式類似,模式中使用的所有元字元都必須轉義。正規表示式中的元字元包括:

( [ { \ ^ $ | ) ? * + .] }

  這些元字元在正規表示式中都有一或多種特殊用途,因此如果想要匹配字串中包含的這些字元,就必須對它們進行轉義。

// 匹配 .docx 
var exp = /\.docx/gi ; 

  由於 RegExp 建構函式的模式引數是字串,所以在某些情況下要對字元進行雙重轉義。所有元字元都必須雙重轉義,那些已經轉義過的字元也是如此。 

// 對 \. 再次轉義
var exp = new RegExp('\\.docx', 'gi');

//匹配 \n 
var exp1 = /\\n/g; //對\n中的\轉義
var exp2 = new RegExp('\\\\n', 'g'); // 對 \\n 再次轉義

  ()  []  {} 的區別

  () 的作用是提取匹配的字串。表示式中有幾個()就會得到幾個相應的匹配字串。比如 (\s+) 表示連續空格的字串。

  [] 是定義匹配的字元範圍。比如 [a-zA-Z0-9] 表示字元文字要匹配英文字元和數字。

  {} 一般用來表示匹配的長度,比如 \d{3} 表示匹配三個數字,\d{1,3} 表示匹配1~3個數字,\d{3,} 表示匹配3個以上數字。 

  ^ 與 $

  ^ 匹配一個字串的開頭,比如 (^a) 就是匹配以字母a開頭的字串

  $ 匹配一個字串的結尾,比如 (b$) 就是匹配以字母b結尾的字串

  ^ 還有另個一個作用就是取反,比如[^xyz] 表示匹配的字串不包含xyz

  注意問題:

如果 ^ 出現在[ ] 中一般表示取反,而出現在其他地方則是匹配字串的開頭。

  ^ 和 $ 配合可以有效匹配完整字串:

/d+/.test('4xpt');  // true - 部分匹配成功
/^\d+$/.test('4xpt');  // false - 完整匹配失敗

  \d  \s  \w  .

  \d 匹配一個非負整數, 等價於 [0-9]

  \s 匹配一個空白字元

  \w 匹配一個英文字母或數字,等價於[0-9a-zA-Z]

  .   匹配除換行符以外的任意字元,等價於[^\n]

  * + ?

  * 表示匹配前面元素0次或多次,比如 (\s*) 就是匹配0個或多個空格

  + 表示匹配前面元素1次或多次,比如 (\d+) 就是匹配由至少1個整陣列成的字串

  ? 表示匹配前面元素0次或1次,相當於{0,1} ,比如(\w?) 就是匹配最多由1個字母或數字組成的字串 

  $1 與 \1 

  $1-$9 存放著正規表示式中最近的9個正規表示式的提取的結果,這些結果按照子匹配的出現順序依次排列。基本語法是:RegExp.$n ,這些屬性是靜態的,除了replace中的第二個引數可以省略 RegExp 之外,其他地方使用都要加上 RegExp 。

//使用RegExp訪問
/(\d+)-(\d+)-(\d+)/.test('2016-03-26') 
 
RegExp.$1  // 2016
RegExp.$2  // 03
RegExp.$3  // 26

//在replace中使用
'2016-03-26'.replace(/(\d+)-(\d+)-(\d+)/, '$1年$2月$3日')  
// 2016年03月26日

  \1 表示後向引用,是指在正規表示式中,從左往右數,第1個()中的內容,以此類推,\2表示第2個(),\0表示整個表示式。

//匹配日期格式,表示式中的\1代表重複(\-|\/|.)
var rgx = /\d{4}(\-|\/|.)\d{1,2}\1\d{1,2}/

rgx.test('2016-03-26') // true  

rgx.test('2016-03.26') // false

兩者的區別是:\n 只能用在表示式中,而 $n 只能用在表示式之外的地方。 

  test 與 match

  前面的大都是JS正規表示式的語法,而test則是用來檢測字串是否匹配某一個正規表示式,如果匹配就會返回true,反之則返回false

/\d+/.test('123') ; // true

/\d+/.test('abc') ; // false

  match是獲取正則匹配到的結果,以陣列的形式返回

'186a619b28'.match(/\d+/g); // ['186', '619', '28'] 

  replace

  replace 本身是JavaScript字串物件的一個方法,它允許接收兩個引數:

replace([RegExp|String], [String|Function])

引數1:可以是一個普通的字串或是一個正規表示式

引數2:可以是一個普通的字串或是一個回撥函式

  如果第1個引數是 RegExp,JS會先提取RegExp匹配出的結果,然後用第2個引數逐一替換匹配出的結果

  如果第2個引數是回撥函式,每匹配到一個結果就回撥一次,每次回撥都會傳遞以下引數:

result: 本次匹配到的結果

$1,...$9: 正規表示式中有幾個(),就會傳遞幾個引數,$1~$9分別代表本次匹配中每個()提取的結果,最多9個

offset: 記錄本次匹配的開始位置

source: 接受匹配的原始字串 

  經典案例

  【1】實現字串的 trim 函式,去除字串兩邊的空格。

String.prototype.trim = function () {

    // 方式一:將匹配到的每一個結果都用''替換
    return this.replace(/(^\s+)|(\s+$)/g, function(){
        return '';
    });

    // 方式二:和方式一的原理相同
    return this.replace(/(^\s+)|(\s+$)/g, '');
};

  ^\s+ 表示以空格開頭的連續空白字元,\s+$ 表示以空格結尾的連續空白字元,加上() 就是將匹配到的結果提取出來,由於是 | 的關係,因此這個表示式最多會match到兩個結果集,然後執行兩次替換:

String.prototype.trim = function () {
    /**
     * @param rs:匹配結果
     * @param $1:第1個()提取結果
     * @param $2:第2個()提取結果
     * @param offset:匹配開始位置
     * @param source:原始字串
     */
    this.replace(/(^\s+)|(\s+$)/g, function(rs, $1, $2, offset, source){
        // arguments中的每個元素對應一個引數
        console.log(arguments);
    });
};

' abcd '.trim();

輸出結果:

[' ', ' ', undefined, 0, ' abcd '] // 第1次匹配結果
[' ', undefined, ' ', 5, ' abcd '] // 第2次匹配結果

  【2】提取瀏覽器 url 中的引數名和引數值,生成一個key/value 的物件。 

function getUrlParamObj(){
    var obj = {};
    //獲取url的引數部分
    var params = window.location.search.substr(1);
    //[^&=]+ 表示不含&或=的連續字元,加上()就是提取對應字串
    params.replace(/([^&=]+)=([^&=]*)/gi, function(rs, $1, $2){
        obj[$1] =  decodeURIComponent($2);
    });

    return obj;
}

  /([^&=]+)=([^&=]*)/gi 每次匹配到的都是一個完整key/value,形如 xxxx=xxx, 每當匹配到一個這樣的結果時就執行回撥,並傳遞匹配到的 key 和 value,對應到$1和$2 。

  【3】擴充套件 typeof,包含引用型別的具體型別。

function getDataType(obj){
    let rst = Object.prototype.toString.call(obj);
    rst = rst.replace(/\[object\s(\w+)\]/,'$1'); // [object Xxx]
    return rst.toLowerCase()
}

getDataType(1); // number
getDataType('a'); // string
getDataType(null); // null
getDataType([]); // array

  $1 是正規表示式中第一個() 中匹配的內容。

  注意問題:

replace 的第二個引數只能是字串或函式,這裡的 $1 需要放在引號中。

  【4】在字串指定位置插入新字串。

String.prototype.insetAt = function(str, offset){

    offset = offset + 1; 
    //使用RegExp()建構函式建立正規表示式
    var regx = new RegExp("(^.{"+offset+"})");

    return this.replace(regx, '$1' + str);
};

'abcd'.insetAt('xyz',2); // 在c字元後插入xyz
> 'abcxyzd'

  當 offset=2 時,正規表示式為:(^.{3})  .表示除\n之外的任意字元,{3} 表示匹配前三個連續字元,加()就會將匹配到的結果提取出來,然後通過replace將匹配到的結果替換為新的字串,形如:結果=結果+str

  【5】將手機號 12988886666 轉化成 129****6666 。

function telFormat(tel){

    tel = String(tel);

    // 方式一
    return tel.replace(/(\d{3})(\d{4})(\d{4})/, function (rs, $1, $2, $3) {
       return $1 + '****' + $3
    });

    // 方式二
    return tel.replace(/(\d{3})(\d{4})(\d{4})/, '$1****$3');
}

  (\d{3}\d{4}\d{4}) 可以匹配完整的手機號,並分別提取前 3 位、4-7 位和 8-11位,"$1****$3" 是將第 2 個匹配結果用****代替並組成新的字串,然後替換完整的手機號。

  【6】實現HTML編碼,將< / > " & ` 等字元進行轉義,避免 XSS 攻擊 。

function htmlEncode(str) {
    //匹配< / > " & `
    return str.replace(/[<>"&\/`]/g, function(rs) {
        switch (rs) {
            case "<":
                return "<";
            case ">":
                return ">";
            case "&":
                return "&";
            case "\"":
                return """;
            case "/":  
                return "/"
            case "`":
                return "'"
        }
    });
}

相關文章