Java 正規表示式例項操作

iChochy發表於2021-05-25

原文網址 : https://www.cnblogs.com/ichochy/p/14810644.html

Regular Expression正規表示式，簡稱RegExp，常規通用的表示式，在多個開發語言中都有它的實現，可以通過正規表示式來快速的檢索、匹配、查詢、替換字串中的文字。

簡單例項

匹配網址

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "https://ichochy.com";
        //正規表示式，(.+)代表一個或多個字元
        String regex = "https://.+.com";
        Boolean flag = Pattern.matches(regex,input);
        System.out.println(flag);  //全文匹配返回：true
    }
}

Matches 方法

Matcher.matches方法，為整塊全匹配，字串完全匹配返回true。

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "https://ichochy.com";
        //正規表示式，(.+)代表一個或多個字元
        String regex = "https://.+.com";
        Pattern pattern = Pattern.compile(regex);//編譯表示式
        Matcher matcher = pattern.matcher(input);//匹配表示式
        System.out.println(matcher.matches());//全文匹配返回：true
    }
}

Find 方法

Matcher.find方法，為查詢模式匹配，匹配到就返回true。

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "我的網站是：https://ichochy.com，你知道嗎？";
        //正規表示式，(.+)代表一個或多個字元
        String regex = "https://.+.com";
        Pattern pattern = Pattern.compile(regex);//編譯表示式
        Matcher matcher = pattern.matcher(input);//匹配表示式
        System.out.println(matcher.find());//查詢匹配返回：true
        System.out.println(matcher.matches());//全文匹配返回：false
        System.out.println(matcher.find());//再次查詢匹配返回：false
        matcher.reset();//重置匹配器
        System.out.println(matcher.find());//重置查詢返回：true
    }
}

find方法多次呼叫，出現結果不相同的問題：

This method starts at the beginning of this matcher's region, or, if a previous invocation of the method was successful and the matcher has not since been reset, at the first character not matched by the previous match.

Matcher.find方法第一次查詢匹配成功後，如果Matcher沒有重置(Matcher.reset())，則從上一次匹配成功位置的後面開始查詢，所以會出現，再次匹配不成功，返回false。

Group 分組

正規表示式通過括號分組進行匹配，matcher.group(int group)：通過組序號獲取匹配資訊

/*
 * File:RegExp.java
 * User:iChochy
 * URL:https://ichochy.com
 * Copyright (c) 2020
 * Date:2020/09/07 18:11:07
 */

package com.ichochy.example;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    public static void main(String[] args) {
        String input = "我的網站是：https://ichochy.com，你知道嗎？";
        String regex = "(https://)(.+)(.com)";//分組表示式
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(input);
        if(matcher.find()){//查詢匹配成功
            //匹配的資訊：https://ichochy.com
            System.out.println(matcher.group().toString());
            //groupCount 組數
            for (int i = 0; i < matcher.groupCount(); i++) {
                //每組匹配的資訊，注意：序號是從 1 開始
                System.out.println(matcher.group(i+1));
            }
        }

    }
}

正規表示式規則

字元

構造	匹配
x	字元 x
\	反斜線字元
\0n	帶有八進位制值 0 的字元 n (0 <= n <= 7)
\0nn	帶有八進位制值 0 的字元 nn (0 <= n <= 7)
\0mnn	帶有八進位制值 0 的字元 mnn（0 <= m <= 3、0 <= n <= 7）
\xhh	帶有十六進位制值 0x 的字元 hh
\uhhhh	帶有十六進位制值 0x 的字元 hhhh
\t	製表符('\u0009')
\n	新行（換行）符 ('\u000A')
\r	回車符 ('\u000D')
\f	換頁符 ('\u000C')
\a	報警 (bell) 符 ('\u0007')
\e	轉義符 ('\u001B')
\cx	對應於 x 的控制符

字元類

構造	匹配
[abc]	a、b 或 c（簡單類）
[^abc]	任何字元，除了 a、b 或 c（否定）
[a-zA-Z]	a 到 z 或 A 到 Z，兩頭的字母包括在內（範圍）
[a-d[m-p]]	a 到 d 或 m 到 p：[a-dm-p]（並集）
[a-z&&[def]]	d、e 或 f（交集）
[a-z&&[^bc]]	a 到 z，除了 b 和 c：[ad-z]（減去）
[a-z&&[^m-p]]	a 到 z，而非 m 到 p：[a-lq-z]（減去）

預定義字元類

構造	匹配
.	任何字元（與行結束符可能匹配也可能不匹配）
\d	數字：[0-9]
\D	非數字： [^0-9]
\s	空白字元：[ \t\n\x0B\f\r]
\S	非空白字元：[^\s]
\w	單詞字元：[a-zA-Z_0-9]
\W	非單詞字元：[^\w]

POSIX 字元類（僅 US-ASCII）

構造	匹配
\p{Lower}	小寫字母字元：[a-z]
\p{Upper}	大寫字母字元：[A-Z]
\p{ASCII}	所有 ASCII：[\x00-\x7F]
\p{Alpha}	字母字元：[\p{Lower}\p{Upper}]
\p{Digit}	十進位制數字：[0-9]
\p{Alnum}	字母數字字元：[\p{Alpha}\p{Digit}]
\p{Punct}	標點符號：!"#$%&'()*+,-./:;<=>?@[]^_`{
\p{Graph}	可見字元：[\p{Alnum}\p{Punct}]
\p{Print}	可列印字元：[\p{Graph}\x20]
\p{Blank}	空格或製表符：[ \t]
\p{Cntrl}	控制字元：[\x00-\x1F\x7F]
\p{XDigit}	十六進位制數字：[0-9a-fA-F]
\p{Space}	空白字元：[ \t\n\x0B\f\r]

java.lang.Character 類（簡單的 java 字元型別）

構造	匹配
\p{javaLowerCase}	等效於 java.lang.Character.isLowerCase()
\p{javaUpperCase}	等效於 java.lang.Character.isUpperCase()
\p{javaWhitespace}	等效於 java.lang.Character.isWhitespace()
\p{javaMirrored}	等效於 java.lang.Character.isMirrored()

Unicode 塊和類別的類

構造	匹配
\p{InGreek}	Greek 塊（簡單塊）中的字元
\p{Lu}	大寫字母（簡單類別）
\p{Sc}	貨幣符號
\P{InGreek}	所有字元，Greek 塊中的除外（否定）
[\p{L}&&[^\p{Lu}]]	所有字母，大寫字母除外（減去）

邊界匹配器

構造	匹配
^	行的開頭
$	行的結尾
\b	單詞邊界
\B	非單詞邊界
\A	輸入的開頭
\G	上一個匹配的結尾
\Z	輸入的結尾，僅用於最後的結束符（如果有的話）
\z	輸入的結尾

Greedy 數量詞

構造	匹配
X?	X，一次或一次也沒有
X*	X，零次或多次
X+	X，一次或多次
X{n}	X，恰好 n 次
X{n,}	X，至少 n 次
X{n,m}	X，至少 n 次，但是不超過 m 次

Reluctant 數量詞

構造	匹配
X??	X，一次或一次也沒有
X*?	X，零次或多次
X+?	X，一次或多次
X{n}?	X，恰好 n 次
X{n,}?	X，至少 n 次
X{n,m}?	X，至少 n 次，但是不超過 m 次

Possessive 數量詞

構造	匹配
X?+	X，一次或一次也沒有
X*+	X，零次或多次
X++	X，一次或多次
X{n}+	X，恰好 n 次
X{n,}+	X，至少 n 次
X{n,m}+	X，至少 n 次，但是不超過 m 次

Logical 運算子

構造	匹配
XY	X 後跟 Y
X	Y
(X)	X，作為捕獲組

Back 引用

構造	匹配
\n	任何匹配的 nth 捕獲組

引用

構造	匹配
\	Nothing，但是引用以下字元
\Q	Nothing，但是引用所有字元，直到 \E
\E	Nothing，但是結束從 \Q 開始的引用

特殊構造（非捕獲）

構造	匹配
(?:X)	X，作為非捕獲組
(?idmsux-idmsux)	Nothing，但是將匹配標誌i d m s u x on - off
(?idmsux-idmsux:X)	X，作為帶有給定標誌 i d m s u x on - off
(?=X)	X，通過零寬度的正 lookahead
(?!X)	X，通過零寬度的負 lookahead
(?<=X)	X，通過零寬度的正 lookbehind
(?<!X)	X，通過零寬度的負 lookbehind
(?>X)	X，作為獨立的非捕獲組

總結

可以看到，通過靈活的規則，設計出你想的表示式，來匹配複雜的字串，從而快速便捷的操作。

源文：https://ichochy.com/posts/20200828/

正規表示式例項蒐集，通過例項來學習正規表示式。
2021-11-19
PHP preg match正規表示式函式的操作例項
2022-03-21
PHP函式
java 正規表示式舉例
2018-06-21
Java
通過js正規表示式例項學習正規表示式基本語法
2021-02-10
JS
正規表示式分組例項詳解
2022-03-16
JavaScript正規表示式校驗非正整數例項
2022-03-18
JavaScript
JavaScript正規表示式備忘單附例項
2019-02-26
JavaScript
正規表示式(java)
2024-03-18
Java
java正規表示式
2020-11-21
Java
【java】正規表示式
2018-04-05
Java
JavaScript正規表示式校驗非零的正整數例項
2022-03-18
JavaScript
例項程式碼詳解正規表示式匹配換行
2022-03-22
JavaScript正規表示式校驗非負整數例項
2022-03-18
JavaScript
Java常用正規表示式
2022-03-21
Java
Java正規表示式提取字元的方法例項
2022-03-22
Java字元
簡單介紹正規表示式拆分url例項程式碼
2022-03-12
python基礎操作——正規表示式
2023-04-10
Python
java正規表示式大全（常用）
2018-10-30
Java
java中的正規表示式
2019-02-25
Java
Java017-正規表示式
2019-01-19
Java
java正規表示式之 group
2018-07-19
Java
Java正規表示式總結
2018-08-22
Java
python正規表示式小例幾則
2018-08-09
Python
Java 異常處理與正規表示式詳解，例項演練及最佳實踐
2024-03-13
Java
Java-正規表示式regex庫
2018-08-27
Java
Java 正規表示式——捕獲組
2020-07-03
Java
正規表示式（程式碼java版）
2020-09-27
Java
正規表示式之零寬斷言例項詳解【基於PHP】
2022-03-14
PHP
正規表示式
2024-10-30
正規表示式.
2019-11-10
正規表示式及多語言操作指南
2019-01-19
Java正規表示式簡單介紹
2018-08-18
Java
java 正規表示式語法學習
2018-06-21
Java
Java 正規表示式替換斜槓
2020-09-24
Java
正規表示式在Java中的使用
2019-04-18
Java
Java 文字檢索神器 "正規表示式"
2023-02-28
Java
Java 的正規表示式與爬蟲
2023-03-10
Java爬蟲
【正規表示式】常用的正規表示式（數字，漢字，字串，金額等的正規表示式）
2021-12-13
字串