Java正規表示式應用

lostinai發表於2014-06-03

原文網址 : https://blog.csdn.net/lostinai/article/details/28267883

對於JAVA的Pattern類和 Matcher類可參考網址 http://www.ibm.com/developerworks/cn/java/l-regp/part2/
正規表示式中的特殊字元：
\\ 反斜槓
\t 間隔 ('\u0009')
\n 換行 ('\u000A')
\r 回車 ('\u000D')
\d 數字等價於[0-9]
\D 非數字等價於[^0-9]
\s 空白符號 [\t\n\x0B\f\r]
\S 非空白符號 [^\t\n\x0B\f\r]
\w 單獨字元 [a-zA-Z_0-9]
\W 非單獨字元 [^a-zA-Z_0-9]
\f 換頁符
\e Escape
\b 一個單詞的邊界
\B 一個非單詞的邊界
\G 前一個匹配的結束

^為限制開頭 ^java 條件限制為以Java為開頭字元
$為限制結尾 java$ 條件限制為以java為結尾字元
.為限制一個任意字元 java.. 條件限制為java後除換行外任意兩個字元加入特定限制條件

[a-z] 條件限制在小寫a to z範圍中一個字元
[A-Z] 條件限制在大寫A to Z範圍中一個字元
[a-zA-Z] 條件限制在小寫a to z或大寫A to Z範圍中一個字元
[0-9] 條件限制在小寫0 to 9範圍中一個字元
[0-9a-z] 條件限制在小寫0 to 9或a to z範圍中一個字元
[0-9[a-z]] 條件限制在小寫0 to 9或a to z範圍中一個字元(交集)

[]中加入^後加再次限制條件
[^a-z] 條件限制在非小寫a to z範圍中一個字元
[^A-Z] 條件限制在非大寫A to Z範圍中一個字元
[^a-zA-Z] 條件限制在非小寫a to z或大寫A to Z範圍中一個字元
[^0-9] 條件限制在非小寫0 to 9範圍中一個字元
[^0-9a-z] 條件限制在非小寫0 to 9或a to z範圍中一個字元
[^0-9[a-z]] 條件限制在非小寫0 to 9或a to z範圍中一個字元(交集)

在限制條件為特定字元出現0次以上時，可以使用「*」
J* 0個以上J
.* 0個以上任意字元
J.*D J與D之間0個以上任意字元

在限制條件為特定字元出現1次以上時，可以使用「+」
J+ 1個以上J
.+ 1個以上任意字元
J.+D J與D之間1個以上任意字元

在限制條件為特定字元出現有0或1次以上時，可以使用「?」
JA? J或者JA

出現限制為連續出現指定次數字符「{a}」
J{2} JJ
J{3} JJJ

文字a個以上，並且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J並存)

文字a個以上，b個以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
兩者取一「|」
J|A J或A
Java|Hello Java或Hello

「()」中規定一個組合型別比如，我查詢<a href=\"index.html\">index</a>中<a href></a>間的資料，可寫作<a.*href=\".*\">(.+?)</a>

在使用Pattern.compile函式時，可以加入控制正規表示式的匹配行為的引數：
Pattern Pattern.compile(String regex, int flag) flag的取值範圍如下：
Pattern.CANON_EQ 當且僅當兩個字元的"正規分解(canonical decomposition)"都完全相同的情況下，才認定匹配。比如用了這個標誌之後，表示式"a\u030A"會匹配"?"。預設情況下，不考慮"規範相等性(canonical equivalence)"。

Pattern.CASE_INSENSITIVE(?i) 預設情況下，大小寫不明感的匹配只適用於US-ASCII字符集。這個標誌能讓表示式忽略大小寫進行匹配。要想對Unicode字元進行大小不明感的匹配，只要將UNICODE_CASE與這個標誌合起來就行了。

Pattern.COMMENTS(?x) 在這種模式下，匹配時會忽略(正規表示式裡的)空格字元(譯者注：不是指表示式裡的"\\s"，而是指表示式裡的空格，tab，回車之類)。註釋從#開始，一直到這行結束。可以通過嵌入式的標誌來啟用Unix行模式。

Pattern.DOTALL(?s) 在這種模式下，表示式'.'可以匹配任意字元，包括表示一行的結束符。預設情況下，表示式'.'不匹配行的結束符。

Pattern.MULTILINE (?m) 在這種模式下，'^'和'$'分別匹配一行的開始和結束。此外，'^'仍然匹配字串的開始，'$'也匹配字串的結束。預設情況下，這兩個表示式僅僅匹配字串的開始和結束。

Pattern.UNICODE_CASE (?u) 在這個模式下，如果你還啟用了CASE_INSENSITIVE標誌，那麼它會對Unicode字元進行大小寫不明感的匹配。預設情況下，大小寫不敏感的匹配只適用於US-ASCII字符集。

Pattern.UNIX_LINES(?d) 在這個模式下，只有'\n'才被認作一行的中止，並且與'.'，'^'，以及'$'進行匹配。拋開空泛的概念，下面寫出幾個簡單的Java正則用例：

◆在字串包含驗證時
//查詢以Java開頭,任意結尾的字串
Pattern pattern = Pattern.compile("^Java.*");
Matcher matcher = pattern.matcher("Java不是人");
boolean b = matcher.matches(); //當條件滿足時，將返回true，否則返回false
System.out.println(b);

正規表示式中的特殊字元：
\\ 反斜槓
\t 間隔 ('\u0009')
\n 換行 ('\u000A')
\r 回車 ('\u000D')
\d 數字等價於[0-9]
\D 非數字等價於[^0-9]
\s 空白符號 [\t\n\x0B\f\r]
\S 非空白符號 [^\t\n\x0B\f\r]
\w 單獨字元 [a-zA-Z_0-9]
\W 非單獨字元 [^a-zA-Z_0-9]
\f 換頁符
\e Escape
\b 一個單詞的邊界
\B 一個非單詞的邊界
\G 前一個匹配的結束

^為限制開頭 ^java 條件限制為以Java為開頭字元
$為限制結尾 java$ 條件限制為以java為結尾字元
.為限制一個任意字元 java.. 條件限制為java後除換行外任意兩個字元加入特定限制條件

[a-z] 條件限制在小寫a to z範圍中一個字元
[A-Z] 條件限制在大寫A to Z範圍中一個字元
[a-zA-Z] 條件限制在小寫a to z或大寫A to Z範圍中一個字元
[0-9] 條件限制在小寫0 to 9範圍中一個字元
[0-9a-z] 條件限制在小寫0 to 9或a to z範圍中一個字元
[0-9[a-z]] 條件限制在小寫0 to 9或a to z範圍中一個字元(交集)

[]中加入^後加再次限制條件
[^a-z] 條件限制在非小寫a to z範圍中一個字元
[^A-Z] 條件限制在非大寫A to Z範圍中一個字元
[^a-zA-Z] 條件限制在非小寫a to z或大寫A to Z範圍中一個字元
[^0-9] 條件限制在非小寫0 to 9範圍中一個字元
[^0-9a-z] 條件限制在非小寫0 to 9或a to z範圍中一個字元
[^0-9[a-z]] 條件限制在非小寫0 to 9或a to z範圍中一個字元(交集)

在限制條件為特定字元出現0次以上時，可以使用「*」
J* 0個以上J
.* 0個以上任意字元
J.*D J與D之間0個以上任意字元

在限制條件為特定字元出現1次以上時，可以使用「+」
J+ 1個以上J
.+ 1個以上任意字元
J.+D J與D之間1個以上任意字元

在限制條件為特定字元出現有0或1次以上時，可以使用「?」
JA? J或者JA

出現限制為連續出現指定次數字符「{a}」
J{2} JJ
J{3} JJJ

文字a個以上，並且「{a,}」
J{3,} JJJ,JJJJ,JJJJJ,???(3次以上J並存)

文字a個以上，b個以下「{a,b}」
J{3,5} JJJ或JJJJ或JJJJJ
兩者取一「|」
J|A J或A
Java|Hello Java或Hello

「()」中規定一個組合型別比如，我查詢<a href=\"index.html\">index</a>中<a href></a>間的資料，可寫作<a.*href=\".*\">(.+?)</a>

在使用Pattern.compile函式時，可以加入控制正規表示式的匹配行為的引數：
Pattern Pattern.compile(String regex, int flag) flag的取值範圍如下：
Pattern.CANON_EQ 當且僅當兩個字元的"正規分解(canonical decomposition)"都完全相同的情況下，才認定匹配。比如用了這個標誌之後，表示式"a\u030A"會匹配"?"。預設情況下，不考慮"規範相等性(canonical equivalence)"。
Pattern.CASE_INSENSITIVE(?i) 預設情況下，大小寫不明感的匹配只適用於US-ASCII字符集。這個標誌能讓表示式忽略大小寫進行匹配。要想對Unicode字元進行大小不明感的匹配，只要將UNICODE_CASE與這個標誌合起來就行了。
Pattern.COMMENTS(?x) 在這種模式下，匹配時會忽略(正規表示式裡的)空格字元(譯者注：不是指表示式裡的"\\s"，而是指表示式裡的空格，tab，回車之類)。註釋從#開始，一直到這行結束。可以通過嵌入式的標誌來啟用Unix行模式。
Pattern.DOTALL(?s) 在這種模式下，表示式'.'可以匹配任意字元，包括表示一行的結束符。預設情況下，表示式'.'不匹配行的結束符。
Pattern.MULTILINE (?m) 在這種模式下，'^'和'$'分別匹配一行的開始和結束。此外，'^'仍然匹配字串的開始，'$'也匹配字串的結束。預設情況下，這兩個表示式僅僅匹配字串的開始和結束。
Pattern.UNICODE_CASE (?u) 在這個模式下，如果你還啟用了CASE_INSENSITIVE標誌，那麼它會對Unicode字元進行大小寫不明感的匹配。預設情況下，大小寫不敏感的匹配只適用於US-ASCII字符集。
Pattern.UNIX_LINES(?d) 在這個模式下，只有'\n'才被認作一行的中止，並且與'.'，'^'，以及'$'進行匹配。拋開空泛的概念，下面寫出幾個簡單的Java正則用例：

◆在字串包含驗證時

Java程式碼

//查詢以Java開頭,任意結尾的字串
Pattern pattern = Pattern.compile("^Java.*");
Matcher matcher = pattern.matcher("Java不是人");
boolean b = matcher.matches(); //當條件滿足時，將返回true，否則返回false
System.out.println(b);

◆以多條件分割字串時

Java程式碼

Pattern pattern = Pattern.compile("[, |]+");
String[] strs = pattern.split("Java Hello World Java,Hello,,World|Sun");
for (int i=0;i<strs.length;i++) {
System.out.println(strs[i]);
}

◆文字替換（首次出現字元）

Java程式碼

Pattern pattern = Pattern.compile("正規表示式");
Matcher matcher = pattern.matcher("正規表示式 Hello World,正規表示式 Hello World"); //替換第一個符合正則的資料
System.out.println(matcher.replaceFirst("Java"));

◆文字替換（全部）

Java程式碼

Pattern pattern = Pattern.compile("正規表示式");
Matcher matcher = pattern.matcher("正規表示式 Hello World,正規表示式 Hello World"); //替換第全部符合正則的資料
System.out.println(matcher.replaceAll("Java"));

◆文字替換（置換字元）

Java程式碼

Pattern pattern = Pattern.compile("正規表示式");
Matcher matcher = pattern.matcher("正規表示式 Hello World,正規表示式 Hello World ");
StringBuffer sbr = new StringBuffer();
while (matcher.find()) {
matcher.appendReplacement(sbr, "Java");
}
matcher.appendTail(sbr);
System.out.println(sbr.toString());

◆驗證是否為郵箱地址

Java程式碼

String str="ceponline@yahoo.com.cn";
Pattern pattern = Pattern.compile("[\\w\\.\\-]+@([\\w\\-]+\\.)+[\\w\\-]+",Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(str);
System.out.println(matcher.matches());

◆去除html標記

Java程式碼

Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);
Matcher matcher = pattern.matcher("<a href=\"index.html\">主頁</a>");
String string = matcher.replaceAll("");
System.out.println(string);

◆查詢html中對應條件字串

Java程式碼

Pattern pattern = Pattern.compile("href=\"(.+?)\"");
Matcher matcher = pattern.matcher("<a href=\"index.html\">主頁</a>");
if(matcher.find()) {
System.out.println(matcher.group(1));
}

◆擷取http://地址//擷取url

Java程式碼

Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+");
Matcher matcher = pattern.matcher("dsdsds<http://dsds//gfgffdfd>fdf");
StringBuffer buffer = new StringBuffer();
while(matcher.find()){
buffer.append(matcher.group());
buffer.append("\r\n");
System.out.println(buffer.toString());
}

◆替換指定{}中文字

Java程式碼

String str = "Java目前的發展史是由{0}年-{1}年";
String[][] object={new String[]{"\\{0\\}","1995"},new String[]{"\\{1\\}","2007"}};
System.out.println(replace(str,object));
public static String replace(final String sourceString,Object[] object) {
String temp=sourceString;
for(int i=0;i<object.length;i++) {
String[] result = (String[]) object[i];
Pattern pattern = Pattern.compile(result[0]);
Matcher matcher = pattern.matcher(temp);
temp = matcher.replaceAll(result[1]);
}
return temp;
}

◆以正則條件查詢指定目錄下檔案 //用於快取檔案列表

Java程式碼

private ArrayList files = new ArrayList(); // 用於承載檔案路徑
private String _path; // 用於承載未合併的正則公式
private String _regexp;
class MyFileFilter implements FileFilter {
/** * 匹配檔名稱 */
public boolean accept(File file) {
try {
Pattern pattern = Pattern.compile(_regexp);
Matcher match = pattern.matcher(file.getName());
return match.matches();
} catch (Exception e) {
return true;
}
}
}
/** * 解析輸入流 * @param inputs */
FilesAnalyze(String path, String regexp) {
getFileName(path, regexp);
}
/** * 分析檔名並加入files * @param input */
private void getFileName(String path, String regexp) { // 目錄
_path = path;
_regexp = regexp;
File directory = new File(_path);
File[] filesFile = directory.listFiles(new MyFileFilter());
if (filesFile == null)
return;
for (int j = 0; j < filesFile.length; j++) {
files.add(filesFile[j]);
}
return;
}
/** * 顯示輸出資訊 * @param out */
public void print(PrintStream out) {
Iterator elements = files.iterator();
while (elements.hasNext()) {
File file = (File) elements.next();
out.println(file.getPath());
}
}
public static void output(String path, String regexp) {
FilesAnalyze fileGroup1 = new FilesAnalyze(path, regexp);
fileGroup1.print(System.out);
}
public static void main(String[] args) {
output("C:\\", "[A-z|.]*");
}

正規表示式的應用
2022-09-16
正規表示式(java)
2024-03-18
Java
java正規表示式
2020-11-21
Java
【java】正規表示式
2018-04-05
Java
Java常用正規表示式
2022-03-21
Java
“正規表示式”應當稱為“規則表示式”
2018-09-23
java正規表示式大全（常用）
2018-10-30
Java
java中的正規表示式
2019-02-25
Java
Java017-正規表示式
2019-01-19
Java
java正規表示式之 group
2018-07-19
Java
java 正規表示式舉例
2018-06-21
Java
Java正規表示式總結
2018-08-22
Java
20個Python 正規表示式應用與技巧
2024-04-12
Python
Java-正規表示式regex庫
2018-08-27
Java
Java 正規表示式——捕獲組
2020-07-03
Java
正規表示式（程式碼java版）
2020-09-27
Java
Java 正規表示式例項操作
2021-05-25
Java
正規表示式中環視的簡單應用示例【基於java】
2022-03-14
Java
正規表示式
2024-10-30
正規表示式.
2019-11-10
正規表示式理解及簡單應用舉例
2018-07-07
python就業班----正規表示式及re應用
2020-10-05
Python就業
20個實用正規表示式
2019-02-12
Java正規表示式簡單介紹
2018-08-18
Java
java 正規表示式語法學習
2018-06-21
Java
Java 正規表示式替換斜槓
2020-09-24
Java
正規表示式在Java中的使用
2019-04-18
Java
Java 文字檢索神器 "正規表示式"
2023-02-28
Java
Java 的正規表示式與爬蟲
2023-03-10
Java爬蟲
【正規表示式】常用的正規表示式（數字，漢字，字串，金額等的正規表示式）
2021-12-13
字串
正規表示式的應用實現郵箱輸入
2024-10-08
正規表示式如何在PHP裡靈活的應用
2022-03-21
PHP
php –正規表示式
2019-02-16
PHP
【Linux】正規表示式
2018-10-18
Linux
【JavaScript】正規表示式
2019-03-02
JavaScript
URL正規表示式
2019-04-11
正規表示式 split()
2018-09-07
初探正規表示式
2018-05-11
正規表示式 test()
2018-05-27

Java正規表示式應用

相關文章