javascript型別系統——正規表示式RegExp型別

小火柴的藍色理想發表於2016-06-24

前面的話

  前面已經介紹過javascript中正規表示式的基礎語法。javascript的RegExp類表示正規表示式,String和RegExp都定義了方法,使用正規表示式可以進行強大的模式匹配和文字檢索與替換。本文將介紹正規表示式的RegExp物件,以及正規表示式涉及到的屬性和方法

 

物件

  javascript中的正規表示式用RegExp物件表示,有兩種寫法:一種是字面量寫法;另一種是建構函式寫法

Perl寫法

  正規表示式字面量寫法,又叫Perl寫法,因為javascript的正規表示式特性借鑑自Perl

  正規表示式字面量定義為包含在一對斜槓(/)之間的字元,並且可以設定3個標誌

var expression = /pattern/flags;

  正規表示式的匹配模式支援下列3個標誌:

  g:表示全域性(global)模式,即模式將被應用於所有字串,而非在發現第一個匹配項時立即停止

  i:表示不區分大小寫(case-insensitive)模式,即在確定匹配項時忽略模式與字串的大小寫

  m:表示多行(multiline)模式,即在到達一行文字末尾時還會繼續查詢下一行中是否存在與模式匹配的項

//匹配字串所有'at'的例項
var p = /at/g;
//test()方法返回一個布林值表示是否可以找到匹配項
console.log(p.test('ata'));//true
console.log(p.test('aba'));//false

RegExp建構函式

  和普通的內建物件一樣,RegExp正規表示式物件也支援new+RegExp()建構函式的形式

  RegExp建構函式接收兩個引數:要匹配的字串模式(pattern)和可選的標誌字串(flags),標誌字串和字面量的三個標誌含義相同:'g'、'i'、'm'

  RegExp建構函式的兩個引數都是字串。且使用字面量形式定義的任何表示式都可使用建構函式

//匹配字串所有'at'的例項
var p1 = /at/g;
//同上
var p2 = new RegExp('at','g');

  [注意]ECMAScript3規範規定,一個正規表示式直接量會在執行到它時轉換為一個RegExp物件,同一段程式碼所表示正規表示式直接量的每次運算都返回同一個物件。ECMAScript5規範則做了相反的規定,同一段程式碼所表示的正規表示式直接量的每次運算都返回新物件。IE6-8一直是按照ECMAScript5規範的方式實現的,所以並沒有相容性問題

  由於正規表示式字面量並不支援變數,所以如果正規表示式中出現變數只能使用RegExp建構函式以字串拼接的形式,將變數拼接到RegExp建構函式的引數中

  【tips】通過類名classname獲取元素

function getByClass(obj,classname){
    var elements = obj.getElementsByTagName('*');
    var result = [];
    var pattern = new RegExp( '(^|\\s)'+ classname + '(\\s|$)');
    for(var i = 0; i < elements.length; i++){
        if(pattern.test(elements[i].className)){
            result.push(elements[i]);
        }
    }
    return result;
}

 

例項屬性

  每個RegExp例項物件都包含如下5個屬性

global:    布林值,表示是否設定了g標誌
ignoreCase:  布林值,表示是否設定了i標誌
lastIndex:   整數,表示開始搜尋下一個匹配項的字元位置,從0算起
multiline:   布林值,表示是否設定了標誌m
source:    正規表示式的字串表示,按照字面量形式而非傳入建構函式中的字串模式返回
var pattern = new RegExp('\\[bc\\]at','i');
console.log(pattern.global);//false
console.log(pattern.ignoreCase);//true    
console.log(pattern.multiline);//false
console.log(pattern.lastIndex);//0
console.log(pattern.source);//'\[bc\]at'

  如果使用RegExp的exec()或test()函式,並且設定了全域性模式'g',正規表示式的匹配就會從lastIndex的位置開始,並且在每次匹配成功之後重新設定lastIndex。這樣,就可以在字串中重複迭代,依次尋找各個匹配結果。但是,如果需要對不同字串呼叫同一個RegExp的exec()或test()方法,這個變數也可能會帶來意料之外的匹配結果,所以在更換字串時,要顯式地將RegExp的lastIndex置為0

//exec()方法以陣列形式返回匹配項
var p = /\w/g;
var s = 'ab';
console.log(p.lastIndex);//0
console.log(p.exec(s));//['a']
console.log(p.lastIndex);//1
console.log(p.exec(s));//['b']
console.log(p.lastIndex);//2
console.log(p.exec(s));//null
console.log(p.lastIndex);//0
var p = /\w/g;
var s1 = 'ab';
var s2 = 'ba';
console.log(p.lastIndex);//0
console.log(p.exec(s1));//['a']
console.log(p.lastIndex);//1
console.log(p.exec(s2));//['a']
console.log(p.lastIndex);//2

 

建構函式屬性

  RegExp建構函式屬性被看成靜態屬性,這些屬性基於所執行的最近一次正規表示式操作而變化

  有兩種方式訪問它們,即長屬性名和短屬性名。短屬性名大都不是有效的ECMAScript識別符號,所以必須通過方括號語法來訪問它們

長屬性名        短屬性名                說明
input             $_                最近一次要匹配的字串
lastMatch         $&                最近一次的匹配項
lastParen         $+                最近一次匹配的捕獲組
leftContext       $`                input字串中lastMatch之前的文字
multiline         $*                布林值,表示是否所有表示式都使用多行模式
rightContext      $'                input字串中lastMatch之後的文字

  使用這些屬性,可以從exec()方法或test()方法執行的操作中提取出更具體的資訊

//test()用於測試一個字串是否匹配某個正規表示式,並返回一個布林值
var text = 'this has been a short summer';
var pattern = /(.)hort/g;
if(pattern.test(text)){
    console.log(RegExp.input);//'this has been a short summer'
    console.log(RegExp.leftContext);//'this has been a '
    console.log(RegExp.rightContext);//' summer'
    console.log(RegExp.lastMatch);//'short'
    console.log(RegExp.lastParen);//'s'
    console.log(RegExp.multiline);//false
    console.log(RegExp['$_']);//'this has been a short summer'
    console.log(RegExp['$`']);//'this has been a '
    console.log(RegExp["$'"]);//' summer'
    console.log(RegExp['$&']);//'short'
    console.log(RegExp['$+']);//'s'
    console.log(RegExp['$*']);//false        
}

  javascript有9個用於儲存捕獲組的建構函式屬性,在呼叫exec()或test()方法時,這些屬性會被自動填充

  [注意]理論上,應該儲存整個表示式匹配文字的RegExp.$0並不存在,值為undefined

//RegExp.$1\RegExp.$2\RegExp.$3……到RegExp.$9分別用於儲存第一、第二……第九個匹配的捕獲組
var text = 'this has been a short summer';
var pattern = /(..)or(.)/g;
if(pattern.test(text)){
    console.log(RegExp.$1);//sh
    console.log(RegExp.$2);//t
}

 

例項方法

  RegExp物件的例項方法共5個,分為兩類。包括toString()、toLocalString()、valueOf()這3種物件通用方法和test()、exec()正則匹配方法

物件通用方法

  RegExp物件繼承了Object物件的通用方法toString()、toLocaleString()、valueOf()這三個方法

【toString()】

  toString()方法返回正規表示式的字面量

【toLocaleString()】

  toLocaleString()方法返回正規表示式的字面量

【valueOf()】

  valueOf()方法返回返回正規表示式物件本身

  [注意]不論正規表示式的建立方式是哪種,這三個方法都只返回其字面量形式

var pattern = new RegExp('[bc]at','gi');
console.log(pattern.toString()); // '/[bc]at/gi'
console.log(pattern.toLocaleString()); // '/[bc]at/gi'
console.log(pattern.valueOf()); // /[bc]at/gi

var pattern = /[bc]at/gi;
console.log(pattern.toString()); // '/[bc]at/gi'
console.log(pattern.toLocaleString()); // '[bc]at/gi'
console.log(pattern.valueOf()); // /[bc]at/gi

正則匹配方法

  正規表示式RegExp物件的正則匹配方法只有兩個:分別是exec()和test()

【exec()】

  exec()方法專門為捕獲組而設計,接受一個引數,即要應用模式的字串。然後返回包含匹配項資訊的陣列,在沒有匹配項的情況下返回null

  在匹配項陣列中,第一項是與整個模式匹配的字串,其他項是與模式中的捕獲組匹配的字串,如果模式中沒有捕獲組,則該陣列只包含一項

  返回的陣列包含兩個額外的屬性:index和input。index表示匹配項在字串的位置,input表示應用正規表示式的字串

var text = 'mom and dad and baby and others';
var pattern = /mom( and dad( and baby)?)?/gi;
var matches = pattern.exec(text);
console.log(pattern,matches);
//pattern.lastIndex:20
//matches[0]:'mom and dad and baby'
//matches[1]:' and dad and baby'
//matches[2]:' and baby'
//matches.index:0
//matches.input:'mom and dad and baby and others'   

  對於exec()方法而言,即使在模式中設定了全域性標誌(g),它每次也只會返回一個匹配項。在不設定全域性標誌的情況下,在同一個字串上多次呼叫exec(),將始終返回第一個匹配項的資訊;而在設定全域性標誌的情況下,每次呼叫exec()都會在字串中繼續查詢新匹配項

var text = 'cat,bat,sat,fat';
var pattern1 = /.at/;
var matches = pattern1.exec(text);
console.log(pattern1,matches);
//pattern1.lastIndex:0
//matches[0]:'cat'
//matches.index:0
//matches.input:'cat,bat,sat,fat'

var text = 'cat,bat,sat,fat';
matches = pattern1.exec(text);    
console.log(pattern1,matches);    
//pattern1.lastIndex:0
//matches[0]:'cat'
//matches.index:0
//matches.input:'cat,bat,sat,fat'
var text = 'cat,bat,sat,fat';
var pattern2 = /.at/g;
var matches = pattern2.exec(text);
console.log(pattern2,matches);    
//pattern2.lastIndex:3
//matches[0]:'cat'
//matches.index:0
//matches.input:'cat,bat,sat,fat'

var text = 'cat,bat,sat,fat';
matches = pattern2.exec(text);
console.log(pattern2,matches);    
//pattern2.lastIndex:7
//matches[0]:'bat'
//matches.index:4
//matches.input:'cat,bat,sat,fat'    

  【tips】用exec()方法找出匹配的所有位置和所有值

var string = 'j1h342jg24g234j 3g24j1';
var pattern = /\d/g;
var valueArray = [];//
var indexArray = [];//位置
var temp;
while((temp=pattern.exec(string)) != null){
    valueArray.push(temp[0]);
    indexArray.push(temp.index);  
}
//["1", "3", "4", "2", "2", "4", "2", "3", "4", "3", "2", "4", "1"] [1, 3, 4, 5, 8, 9, 11, 12, 13, 16, 18, 19, 21]
console.log(valueArray,indexArray); 

【test()】

  test()方法用來測試正規表示式能否在字串中找到匹配文字,接收一個字串引數,匹配時返回true,否則返回false

var text = '000-00-000';
var pattern = /\d{3}-\d{2}-\d{4}/;
if(pattern.test(text)){
    console.log('The pattern was matched');
}

  同樣地,在呼叫test()方法時,會造成RegExp物件的lastIndex屬性的變化。如果指定了全域性模式,每次執行test()方法時,都會從字串中的lastIndex偏移值開始嘗試匹配,所以用同一個RegExp多次驗證不同字串,必須在每次呼叫之後,將lastIndex值置為0

var pattern = /^\d{4}-\d{2}-\d{2}$/g;
console.log(pattern.test('2016-06-23'));//true
console.log(pattern.test('2016-06-23'));//false

//正確的做法應該是在驗證不同字串前,先將lastIndex重置為0
var pattern = /^\d{4}-\d{2}-\d{2}$/g;
console.log(pattern.test('2016-06-23'));//true
pattern.lastIndex = 0;
console.log(pattern.test('2016-06-23'));//true

  前面介紹過,javascript有9個用於儲存捕獲組的建構函式屬性,在呼叫exec()或test()方法時,這些屬性會被自動填充

  [注意]理論上,應該儲存整個表示式匹配文字的RegExp.$0並不存在,值為undefined

if(/^(\d{4})-(\d{2})-(\d{2})$/.test('2016-06-23')){
    console.log(RegExp.$1);//'2016'
    console.log(RegExp.$2);//'06'
    console.log(RegExp.$3);//'23'
    console.log(RegExp.$0);//undefined
}

 

參考資料

【1】 阮一峰Javascript標準參考教程——標準庫RegExp物件 http://javascript.ruanyifeng.com/stdlib/regexp.html
【2】《正則指引》第12章 JavaScript
【3】《javascript權威指南(第6版)》第10章 正規表示式的模式匹配
【4】《javascript高階程式設計(第3版)》第5章 引用型別
【5】《javascript語言精粹(修訂版)》第8章 方法

 

相關文章