可以用在 VS Code 中的正規表示式小技巧

瘋狂的技術宅發表於2019-05-15

  你是不是一直都想學正規表示式,但是因為它的複雜性而被推遲了?在本文中,我將向你展示五個易於學習的正則技巧,你可以立即在自己喜歡的文字編輯器中使用它們。

  文字編輯器設定

  雖然現在幾乎所有的文字編輯器都支援正規表示式,但我在本教程中用的是 Visual Studio Code,不過你可以使用任何你喜歡的編輯器。另請注意,你通常需要在搜尋輸入框附近的某處開啟 RegEx 開關。以下是在 VS Code 中執行此操作的方法:

  你需要通過選中此選項啟用RegEx

  1) .  —  匹配任何字元

  讓我們開始吧。點符號 . 用來匹配任何字元:

b.t

  上面的正則匹配 "bot",`"bat"和任何以b開頭、t結尾的三個字元的單詞。但是如果你想搜尋點符號,則需要用 \ 來對它進行轉義,所以下面這個正則只匹配確切的文字 "b.t":

b\.t

  2) .*  —  匹配任何東西

  這裡 . 表示“任何字元”, * 表示“此符號重複前面那個內容任何次數。” 把它們放在一起(.*)表示“任何符號重複任意次數。” 例如,你可以用它來查詢以某些文字開頭或結尾的匹配項。假設我們有一個這樣的 javascript 方法:

loadScript(scriptName: string, pathToFile: string)

  我們想找到這個方法的所有呼叫,其中 pathToFile 指向資料夾“lua” 中的任何檔案。可以使用以下正規表示式:

loadScript.*lua

  這意味著,“匹配所有以 "loadScript" 開始同時以"lua"結束的字串。”

  3) ?  —  非貪婪的匹配

  .* 之後的 ? 符號和其他一些匹配規則意味著“儘可能少的匹配”。 在上一張圖中,每次匹配都會得到兩次 "lua"字串,直到第二個 "lua" 所有東西才能全部匹配完畢。如果你想匹配第一次出現的"lua",可以使用以下正則:

loadScript.*?lua

  這意味著,“匹配所有以 "loadScript"開頭,後面為任意字元,直到第一次出現"lua"

  loadScript.*?lua:匹配以 loadScript 開頭的所有內容,直到第一次出現"lua"

  4) `( ) ###  — 捕獲組和反向引用

  好的,現在我們可以匹配一些文字了。但是如果想要修改我們發現的部分文字呢?這時候就要用到捕獲組。

  假設我們修改了 loadScript 方法,現在需要在它原來的兩個引數之間插入另外一個引數。讓我們把這個新引數命名為 id,這時新的函式原型應如下所示:loadScript(scriptName,id,pathToFile)。我們在這裡不能用文字編輯器的常規替換功能,不過正規表示式能夠幫助我們。

  通過上圖你可以看到執行以下正規表示式的結果:

loadScript\(.*?,.*?\)

  這意味著:“匹配以 "loadScript(" 開頭的, 後面跟任意內容,直到遇到第一個, ,然後是任意內容,直到第一個)”

  對你來說,可能看唯一起來比較奇怪的是 \ 符號。它們用於對括號進行轉義。

  因為符號 (和) 是正規表示式用來捕獲匹配文字部分的特殊字元,但我們需要匹配實際的括號字元,所以需要對它們進行轉義。

  在前面的表示式中,我們使用.*?符號定義了方法呼叫的兩個引數。要使每個引數作為單獨的捕獲組,需要在它們的前後分別新增(和)符號:

loadScript\((.*?),(.*?)\)

  如果你執行這段正則,你將看到沒有任何變化。這是因為它匹配的是相同的文字。但現在我們可以將第一個引數稱為\$1,將第二個引數稱為\$2。這稱為反向引用,它將幫助我們做自己想要的事情:在兩個引數中間新增另一個引數:

  搜尋輸入:

loadScript\((.*?),(.*?)\)

  這與之前的正則相同,但分別將引數對映到倒了捕獲組1和2。

  替換輸入:

loadScript($1,id,$2)

  這意味著“用文字"loadScript("、捕獲組1、"id"、捕獲組2和 ) 替換每個匹配的文字 ”。請注意,你不需要在替換輸入中轉義括號。

  5) [ ]  —  字元類

  你可以在 [ 和 ] 符號內來列出要在特定位置匹配的字元。例如,[0-9]匹配從0到9的所有數字。你還可以明確列出所有數字:[0123456789] —— 與前面的含義相同。你也可以使用帶字母的破折號,[a-z] 將匹配所有小寫拉丁字元,[A-Z] 將匹配所有大寫拉丁字元,[a-zA-Z] 將會匹配兩者。

  你也可以在字元類之後使用 *,就像在 . 之後一樣,在這種情況下意味著:“匹配此類中任意數量的字元”

  後記

  你應該知道有幾種正規表示式的寫法。我在這裡討論的是 javascript RegEx 引擎。大多數現代引擎都很相似,但也可能會存在一些差異。通常這些差異包括轉義字元和反向引用標記。

  你現在就可以開啟文字編輯器,立即開始使用其中的一些技巧。你將看到可以比以前更快地完成許多重構任務。一旦你掌握了這些技巧,就可以開始研究更多的正規表示式了

相關文章