java中的正規表示式

saka發表於2019-02-25

基礎

1. “?”的作用

判斷目標字串中是否可能含這個字元。

假如待匹配字串包含指定字串並且匹配正規表示式,則為真,假如待匹配字串不包含指定字串但是匹配正規表示式,也為真,假如其他情況為假。

看一段簡單的程式碼示例:

private static String s = "1";

public static void main(String[] args) {
    testOne(s);
}
    
private static void testOne(String s){
    System.out.println(s.matches("1?"));
}
複製程式碼

這段程式測試的是s中是否包含”1″,假如包含則返回true,不包含則返回false。此處執行程式結果得到:true

注意此處?的用法不同於contains的用法,contains用於測試字串中是否包含某個字串,match後的引數則是整個字串的正則形式。

可以再做一個簡單的測試:

private static String s = "1java";

public static void main(String[] args) {
    testOne(s);
}

private static void testOne(String s){
    System.out.println(s.matches("1?"));
}
複製程式碼

此處將待匹配的字串改成了”1java”,執行此程式顯示的結果為false。此時我們再次稍微修改一下即可:

private static String s = "1java";

public static void main(String[] args) {
    testOne(s);
}

private static void testOne(String s){
    System.out.println(s.matches("1?[a-z]+"));
}
複製程式碼

上面的程式碼修改了了一下match中的引數,此時結果即為true

再來看一個情況

private static String s = "12";

public static void main(String[] args) {
    testOne(s);
}

private static void testOne(String s){
    System.out.println(s.matches("0?\d+"));
}
複製程式碼

此時返回的結果仍為true,待匹配字串中不包含”0″,但是後邊的表示式”d+”完全匹配”12″。所以返回true。

2. “”的作用

轉義符

在java中的String使用中,我們知道””表示轉義符。當我們需要表示

String s="He is a "Monster"";
複製程式碼

其中的" "不能直接寫入字串中,否則編譯器會直接報錯。需要經過轉義符來轉換:

String s="He is a "Monster"";
複製程式碼

但是在java中的正規表示式中,有時候需要用到””來表示一些特定的符號,比如d在正規表示式中表示匹配一位數字,但用到正規表示式中則必須使用\這樣的雙反斜槓來表示一個。也就是說我們在程式碼中必須寫成\d來匹配一個陣列,相當於正規表示式中的d

假如你想在正規表示式中插入一個正常的,則需要寫入\\

private static String s = "\12";

public static void main(String[] args) {
    testOne(s);
}

private static void testOne(String s){
    System.out.println(s);
    System.out.println(s.contains("\"));
    System.out.println(s.matches("\\?\d+"));
}
複製程式碼

注意看一下這段程式中的表示:
s=12,這是我們的待匹配字串,它包含了一個和兩個數字12
String.contains()方法能匹配字串,可以使用正常的\表示方法,但是在String.match()方法中是正規表示式,此時必須使用\\來表示一個正常的方可匹配成功。

3. “+”的作用

一個或多個之前的表示式

前邊已經稍微解釋過這個字元的作用,\d表示匹配一個數字,在後邊加上一個”+”則表示匹配一個或多個數字

private static String s = "12345";

public static void main(String[] args) {
    testOne(s);
}

private static void testOne(String s){
    System.out.println(s.matches("\\?\d+"));
}
複製程式碼

無論s中包含多少個數字,只要全部是數字即可匹配。假如要匹配123則需要用如下表示式:

(123)+
複製程式碼

有一種錯誤寫法如下:

123+
複製程式碼

這種表示首先匹配12,然後匹配多個3。
程式碼測試:

private static String s = "1233";

public static void main(String[] args) {
    testOne(s);
}

private static void testOne(String s){
    System.out.println(s.matches("123+"));
}
複製程式碼

輸出為真,此時就是匹配的12+多個3。

量詞

量詞表示一個正規表示式在匹配的過程中的模式

  1. 貪婪型
    一般的匹配模式總是貪婪型的,除非被設定了其他選項。貪婪表示式會為所有可能的匹配來儘可能的匹配,也就是匹配最多的字串。
  2. 勉強型
    用問號來制定,勉強表示式會盡可能少的匹配,也就是匹配最少的字串。
  3. 佔有型
    這種型別是java中特有的
貪婪型 勉強型 佔有型 說明
X? X?? X?+ 一個或0個X
X* X*? X*+ 0個或多個X
X+ X+? X++ 一個或多個X
X{n} X{n}? X{n}+ 恰好n次X
X{n,} X{n,}? X{n,}+ 至少n次X
X{n,m} X{n,m}? X{n,m}+ 至少n次,至多m次X

正規表示式中的字元

字元

下表展示了一些常用的字元表示

示例 說明
B 指定字元B
xhh 16進製表示字元,0xhh
uhhhh 16進製表示unicode字元0xhhhh
製表符TAB
換行符
回車
f 換頁
e 轉義(escape)

字元類

下表列出了正規表示式中常用的字元類

示例 說明
. 匹配任意單個字元
[abc] 包含abc中任意的字元,等價於a
[^abc] 除了abc外的任意字元
[a-zA-Z] 從a到z或者從A到Z中的任意字元
[abd[1-9]] abd中任意字元或者1-9中任意字元,取並集
[a-z&&[hij]] 任意h、i、j字元,取交集
s 空白符(空格、tab、換行、換頁和回車)
S 非空白符(^s)
d 數字(0-9)
D 非數字(^0-9)
w 詞字元[a-zA-Z0-9]
W 非詞字元[^w]

邏輯操作符

示例 說明
XY Y跟在X後邊
X Y
(X) 捕獲組

邊界匹配符

示例 說明
^ 一行的起始
$ 一行的結束
詞的邊界
B 非詞的邊界
G 前一個匹配的結束

一個簡單的例子來建立上面表中的正規表示式

private static String s = "java123
JAVA";//形式為"[a-z]{4}[0-9]{3}s[A-Z]{4}


public static void main(String[] args) {
    testOne(s);
}

private static void testOne(String s) {
    System.out.println(s);
    System.out.println(s.matches(".+\s.\S+"));//測試"."匹配任意字元與空白字元"s與非空白字元S"
    System.out.println(s.matches("[a-z]+[1-9]+\s[A-Z]+"));//測試[a-zA-Z0-9]的任意匹配
    System.out.println(s.matches("[^0-9]+[^a-z]+[^\S][^a-z]+"));//測試^(非)
    System.out.println(s.matches("[bv[ja]]+[123]+\s[A-Z&&1JAV]+"));//測試與和或
    System.out.println(s.matches("\w{4}\d{3}\s\w{4}"));//測試w詞字元與d數字
    System.out.println(s.matches("\D{4}\w{3}\W\D{4}"));//測試非詞字元W與非數字D
}
複製程式碼

註釋中已經寫的相當清楚了,輸出結果為:

java123
JAVA
true
true
true
true
true
true
複製程式碼

參考:
Think in java

相關文章