JS 正則中的命名捕獲分組

紫雲飛發表於2017-04-25

假設你在一段陌生的程式碼中看到這樣一個函式: 

function toLocalDate(date) {
  return date.replace(/(\d{2})-(\d{2})-(\d{4})/, "$2-$1-$3")
}

單看這個函式你能知道它是想把“日-月-年”替換成“月-日-年”,還是反過來?匿名捕獲分組沒法做到這一點,那就該命名捕獲分組上場了:

function toLocalDate(date){
  return date.replace(/(?<month>\d{2})-(?<day>\d{2})-(?<year>\d{4})/, "$<day>-$<month>-$<year>")
}

俗話說的好,“一個好的變數名賽過一行註釋”,命名捕獲分組很大的一個作用就是它能起到註釋的作用。

另外,命名捕獲分組還有一個好處,那就是假如你在修改一個正則時,在已有分組的左邊引入了新的分組,那麼你還得記得更新已有的反向引用的數字。比如將 (foo)\1 改成了 (bar)(foo)\1,那你得把原來的 \1 改成 \2,replace() 方法的第二個引數裡的 $1 也同樣得改,用命名分組不會有這個問題。

語法

命名捕獲分組自身的語法是 (?<name>...),比普通的分組多了一個 ?<name> 字樣,其中 name 的起法就和你平時起變數名一樣即可(不過在這裡關鍵字也可用)。

反向引用一個命名分組的語法是 \k<name>,注意命名分組同樣可以通過數字索引來反向引用,比如:

/(?<foo>a)\k<foo>\1/.test("aaa") // true

在 replace() 方法的替換字串中反向引用是用 $<name>:

"abc".replace(/(?<foo>a)/, "$<foo>-") // "a-bc",同樣 $1 仍然可用

總結一下就是,和命名分組相關的有三種語法,分別是 ?<name>、\k<name>、$<name>,相同點是都用尖括號包裹著分組名。

在 API 中的使用

在 exec() 和 match() 中的使用:

const groups = "04-25-2017".match(/(?<month>\d{2})-(?<day>\d{2})-(?<year>\d{4})/).groups // {month: "04", day: "25", year: "2017"}

const {day, month, year} = groups

exec() 和 match() 方法返回的匹配結果陣列上多了一個 groups 屬性,裡面存放著每個命名分組的名稱以及它們匹配到的值,利用 ES6 的解構語法,可以方便的提取出想要的欄位。注意這個 groups 屬性只有在當前正則裡至少存在一個命名分組的前提下才會存在,比如:

/(\d{2})-(\d{2})-(\d{4})/.exec("04-25-2017").groups // undefined,因為沒有命名分組

在 replace(/.../, replacement) 中的使用:

replacement 是字串的情況上面已經舉過例子了,這裡主要講它是函式的情況:

"04-25-2017".replace(/(?<month>\d{2})-(?<day>\d{2})-(?<year>\d{4})/, (...args) => {
  const groups = args.slice(-1)[0]
  const {day, month, year} = groups
  return `${day}-${month}-${year}`
}) // "25-04-2017"

也就是說,在實參列表的最末尾,多傳了一個 groups 物件。同樣,如果正則裡沒有命名分組,這個引數不會存在。

異常情況

分組名不能有重複項:

/(?<foo>a)(?<foo>b)/ // SyntaxError: Duplicate capture group name

反向引用一個不存在的分組名:

/\k<foo>/u // SyntaxError: Invalid named capture referenced

/\k<foo>/.test("k<foo>") // true, 非 Unicode 下為了向後相容,k 前面的 \ 會被丟棄

在 reaplce() 方法的替換字串中引用一個不存在的分組:

"abc".replace(/(?<foo>.*)/, "$<bar>") // SyntaxError: Invalid replacement string

"abc".replace(/(.*)/, "$<bar>") // "$<bar>",不包含命名分組時會向後相容

總結

V8 目前已經完全實現了命名捕獲分組的提案 https://tc39.github.io/proposal-regexp-named-groups/

命名分組雖然帶來了一些好處,但我個人覺得,正則越長越難讀懂,尤其增加的長度是一堆小括號和尖括號。在可讀性上,命名分組也許會起到反作用,尤其對正則苦手來說。 

相關文章