C# 正則進階

丹楓無跡發表於2020-02-12

.NET 中的正規表示式是基於 Perl 5 的正規表示式。

超時

從 .NET Framework 4.5 開始,正規表示式支援在匹配操作中指定超時時間。如果匹配超時,就會丟擲 RegexMatchTimeoutException

所有方法都增加了帶超時時間引數的過載:

public static Match Match(string input, string pattern, RegexOptions options, TimeSpan matchTimeout);

public static MatchCollection Matches(string input, string pattern, RegexOptions options, TimeSpan matchTimeout);

public static string Replace(string input, string pattern, string replacement, RegexOptions options, TimeSpan matchTimeout);

public static string[] Split(string input, string pattern, RegexOptions options, TimeSpan matchTimeout);

複製程式碼

如果應用程式需要處理任意的正規表示式(例如在高階搜尋對話方塊中)則務必使用該引數以防止一些惡意的正規表示式導致無限計算。

編譯正規表示式

RegexOptions.Compiled 選項將會使 Regex 例項通過輕量級的程式碼生成器動態地構建並編譯針對特定正規表示式的程式碼,提高匹配速度。

模式修正符

模式修正符不僅可以開啟,還可以關閉。如下示例,先開啟忽略大小寫,再關閉忽略大小寫,所以匹配結果是 Aa

Regex.Match("AAAa", "(?i)a(?-i)a").Value;    // Aa
複製程式碼

零寬斷言

現在要寫一個用於驗證密碼是否符合要求的正規表示式,要求是至少包含一個數字。

這個很簡單,如下就可以了

Regex.IsMatch("12345678", "\d");
複製程式碼

現在加一個條件,長度要大於 6 位。似乎用一個正則無法實現。

其實是可以的,用零寬斷言中的 正向先行斷言 就可以了。

正向先行斷言 (?=exp),一般用來匹配 exp 之前的內容。例如下面個例子,要取出姓名,需要匹配 之前的內容。

Regex.Match("姓名張三,男,30 歲", "(?<=姓名).*?(?=,)").Value;  // 張三
複製程式碼

其實,正確的理解是:正向先行斷言,匹配成功之後,會退回起始位置,然後繼續之後的匹配。

這裡最重要的一點是,匹配成功以後退回起始位置,所以,對它正確的理解是,一個前向條件判斷。

那麼上面的密碼至少包含一個數字,且長度大於 6 就好實現了:

Regex.IsMatch("abcde6", @"(?=.*\d).{6,}");
複製程式碼

我們再增加一點難度,密碼要求符合如下條件:

  • 至少 8 位
  • 至少包含一個數字
  • 至少包含一個小寫字母
  • 至少包含一個大寫字母
string pattern = @"(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,}";
Regex.IsMatch("12345678", pattern);  // false
Regex.IsMatch("1234567a", pattern);  // false
Regex.IsMatch("123456aA", pattern);  // true
複製程式碼

分割字串

分割字串分隔符不會包含在結果中,若要將分隔符包含在結果中,則可以將表示式包含在正前向條件中。

foreach (string s in Regex.Split("oneTwoThree", "(?=[A-Z])"))
    Console.WriteLine(s);
    
// one
// Two
// Three
複製程式碼

分組

正規表示式中可以通過 \n 語法來引用索引為 n 的分組。

var m = Regex.Matches("pop pope peep", @"\b(\w)\w+\1\b");

// pop
// peep
複製程式碼

命名捕獲分組語法: (?'組名'表示式)(?<組名>表示式)

引用命名分組語法: \k'組名'\k<組名>

替換並分割文字

替換字串可以通過 $0 作為替代結構訪問原始的匹配。$1$2 訪問任意捕獲的分組。對於命名分組,可以通過 ${name} 的方式進行訪問。

給所有數字加上 <>:

Console.WriteLine(Regex.Replace("1 + 11 = 12", @"\d+", @"<$0>"));
// <1> + <11> = <12>
複製程式碼

MatchEvaluator 委託

Replace 方法有一個過載,使用 MatchEvaluator 委託作為引數,替代 replacement。該委託將對每個匹配執行一次,並使用其返回結果替換原字串中的值。

MatchEvaluator 委託定義:

public delegate string MatchEvaluator(Match match);
複製程式碼

示例:

Console.WriteLine(Regex.Replace("1 + 11 = 12", @"\d+", m => (int.Parse(m.Value) * 10).ToString()));

// 10 + 110 = 120
複製程式碼

相關文章