Java開發筆記(三十八)利用正規表示式校驗字串

pinlantu發表於2018-12-17

前面多次提到了正則串、正規表示式,那麼正規表示式究竟是符合什麼定義的字串呢?正規表示式是程式語言處理字串格式的一種邏輯式子,它利用若干保留字元定義了形形色色的匹配規則,從而通過一個式子來覆蓋滿足了上述規則的所有字串。正規表示式的保留字元主要有:圓括號、方括號、花括號、豎線、橫線、點號、加號、星號、反斜杆等等,這些保留字元的作用詳見前一篇博文,下面再簡單總結一下它們的用途:
圓括號“()”:把圓括號內外的表示式區別開來。
方括號“[]”:表示方括號內部的字元互相之間是或的關係。
花括號“{}”:花括號中間填寫數字,表示花括號前面的字元有多少位。
豎線“|”:對前面和後面的字元進行或運算,表示既可以是前面的字元,也可以是後面的字元。
橫線“-”:與前面和後面的字元組合起來,代表兩個字元之間的所有連續字元。
點號“.”:代表除了回車符和換行符以外的其它字元。
加號“+”:表示加號前面的字元可以有一位,也可以有多位。
星號“*”:表示星號前面的字元可以有一位,也可以有多位,還可以沒有(0位)。
反斜杆“”:兩個反斜杆可對保留字元進行轉義,表示保留字元的自身符號。
正規表示式除了用在split方法中切割字串,還可以用在matches方法中判斷字串是否符合正則條件。以手機號碼為例,不管是移動還是聯通還是電信的手機號,統統都是11位數字,並且第一位數字固定為1,第二位數字可能是3、4、5、7、8,再加上9位數字湊成11位手機號。那麼通過正規表示式書寫11位手機號碼的規則,第一位就用“1”表示,第二位可用“[34578]”表示,後面的9位數字使用“\d{9}”表達,整合起來便形成了最終的手機號碼正則串“1[34578]\d{9}”。下面的isPhone方法,就是根據這個正規表示式校驗手機號碼的程式碼例子:

	// 利用正規表示式檢查字串是否為合法的手機號碼
	public static boolean isPhone(String phone) {
		// 開頭的"1"代表第一位為數字1,"[34578]"代表第二位可以為3、4、5、7、8其中之一,"\d{9}"代表後面是9位數字
		String regex = "1[34578]\d{9}";
		// 字串變數的matches方法返回正規表示式對該串的檢驗結果,true表示符合字串規則,false表示不符合規則
		return phone.matches(regex);
	}

 

再來一個更復雜的字串校驗——身份證號碼的格式校驗,中國的二代身份證號碼共有18位,其中前六位是地區編碼,中間八位是公民的出生年月日,後面三位是該地區當日的出生序號,最後一位是校驗碼。國家把各省區劃分為七大塊,地區編碼的首位為1代表華北地區,為2代表東北地區,為3代表華東地區,為4代表中南地區,為5代表西南地區,為6代表西北地區,為8代表港澳臺特別行政區。地區編碼的第二位代表大區域下面的具體省區,再後面的位數表示下面的地市乃至縣區,通常只要校驗地區編碼的前兩位就行了,於是得到如下的地區校驗的正則方法程式碼例子:

	// 校驗身份證號碼開頭的六位地區編碼
	public static void checkArea() {
		String regex = "(1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\d{4}";
		for (int i=0; i<=90; i++) {
			String area = String.format("%06d", i*10000);
			boolean check = area.matches(regex);
			System.out.println("area = "+area+", check = "+check);
		}
	}

 

身份證號碼中間的八位出生年月日,可再拆分為四位的年份、兩位的月份和兩位的日期。一個健在公民的出生年份,只可能是二十世紀和二十一世紀的某一年,也就是說,四位年份必定以19或者20開頭,因此正則串“(19|20)\d{2}”即可覆蓋這兩個世紀的兩百個年份。此時校驗年份的正則方法程式碼如下所示:

	// 校驗四位的年份字串
	public static void checkYear() {
		String regex = "(19|20)\d{2}";
		for (int i=1899; i<=2100; i++) {
			if (i>1910 && i<2090) {
				continue;
			}
			String year = i+"";
			boolean check = year.matches(regex);
			System.out.println("year = "+year+", check = "+check);
		}
	}

 

年份校驗完畢,後面的月份更簡單,因為兩位月份就是“01”到“12”中間的十二個數字。如果月份首位是0,那麼第二位可以是1到9;如果月份首位是1,那麼第二位可以是0到2。據此可把月份的正規表示式分解成兩個關係為“或”的子表示式,其中第一個表示式可使用“0[1-9]”,第二個表示式可使用“1[0-2]”,兩個表示式通過豎線連線起來便形成了完整的月份表示式“0[1-9]|1[0-2]”。此時校驗月份的正則方法程式碼如下所示:

	// 校驗兩位的月份字串
	public static void checkMonth() {
		String regex = "0[1-9]|1[0-2]";
		for (int i=0; i<=13; i++) {
			String month = String.format("%02d", i);
			boolean check = month.matches(regex);
			System.out.println("month = "+month+", check = "+check);
		}
	}

 

月份後面的日期,校驗起來稍微有些複雜。合法的兩位日期可以是“01”到“31”中間的三十一個數字,故而日期的正則校驗需要分解成以下的三種情況:
1、日期首位是0,那麼第二位可以是1到9,該情況的正規表示式應為“0[1-9]”。
2、日期首位是1或者2,那麼第二位可以是0到9,該情況的正規表示式應為“[12]\d”。
3、日期首位是3,那麼第二位可以是0和1,該情況的正規表示式應為“3[01]”。
綜合以上的三種情況,得到完整的日期校驗正則串為“0[1-9]|[12]\d|3[01]”。此時校驗日期的正則方法程式碼如下所示:

	// 校驗兩位的日期字串
	public static void checkDay() {
		String regex = "0[1-9]|[12]\d|3[01]";
		for (int i=0; i<=32; i++) {
			String day = String.format("%02d", i);
			boolean check = day.matches(regex);
			System.out.println("day = "+day+", check = "+check);
		}
	}

 

然後還要校驗身份證號碼的末尾四位,包括三位的出生編碼和一位的校驗碼。其中出生編碼為三位數字,而校驗碼除了數字以外還可能是小寫的x或者大寫的X,因此出生編碼和校驗碼也得分別加以判斷。三位的出生編碼,對應的正規表示式為“\d{3}”;一位的校驗碼,對應的正規表示式為“[0-9xX]”;二者的式子合起來,就變成了“\d{3}([0-9xX])”。下面的方法程式碼可生成四位的字串,並進行身份證末四位的正則校驗:

	// 校驗身份證號碼末尾的四位編號串
	public static void checkLastFour() {
		String regex = "\d{3}([0-9xX])";
		for (int i=0; i<36; i++) {
			char last;
			if (i < 10) {
				// 轉換成數字字元
				last = (char) (`0`+i);
			} else {
				// 轉換成字母字元
				last = (char) (`A` + i-10);
			}
			String lastFour = String.format("%03d%c", i*13, last);
			boolean check = lastFour.matches(regex);
			System.out.println("lastFour = "+lastFour+", check = "+check);
		}
	}

 

以上把18位身份證號碼的各個區間分別做了正則校驗,最後還要組裝各區間的正規表示式。這時為了避免各區間的表示式互相干擾,可以利用圓括號將各區間的作用範圍先行界定,就像下面這樣“(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)”,接著再把各區間的正規表示式分別填入該區間的圓括號之中,便形成了最終的身份證號碼正則串。包含正則串在內的身份證校驗的完整方法如下所示:

	// 利用正規表示式檢查字串是否為合法的身份證號碼
	public static boolean isICNO(String icno) {
		//String regex = "(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)";
		String regex = "((1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\d{4})((19|20)\d{2})(0[1-9]|1[0-2])(0[1-9]|[12]\d|3[01])(\d{3}([0-9xX]))";
		return icno.matches(regex);
	}

  

更多Java技術文章參見《Java開發筆記(序)章節目錄

相關文章