改進JAVA字串分解的方法

casularm發表於2004-10-19

一、概述

　　大多數Java程式設計師都曾經使用過java.util.StringTokenizer類。它是一個很方便的字串分解器，主要用來根據分隔符把字串分割成標記（Token），然後按照請求返回各個標記。這個過程稱為Tokenization，實際上就是把字元序列轉換成應用程式能夠理解的多個標記。

　　雖然StringTokenizer用起來很方便，但它的功能卻很有限。這個類只是簡單地在輸入字串中查詢分隔符，一旦找到了分隔符就分割字串。它不會檢查分隔符是否在子串之中這類條件，當輸入字串中出現兩個連續的分隔符時，它也不會返回""（字串長度為0）形式的標記。

　　為了突破這些侷限，Java 2平臺提供了BreakIterator類，它是在StringTokenizer之上改進的字串分解器。由於JDK 1.1.x沒有提供這個類，為了滿足自己的需要，開發者經常花費很多時間從頭開始編寫分解器。在涉及到資料格式化處理的大型工程中，這類定製的字串分解器有時隨處可見，而且這種情況並不罕見。

　　本文的目標是幫助你利用現有的StringTokenizer類，編寫一個高階字串分解器。

二、StringTokenizer的侷限

　　你可以用以下三種建構函式中的任意一種建立StringTokenizer分解器：

StringTokenizer(String sInput)：以空白字元（“ ”，“/t”，“/n”）為分隔符分割字串。
StringTokenizer(String sInput, String sDelimiter)：以sDelimiter為分隔符分割字串。
StringTokenizer(String sInput, String sDelimiter, boolean bReturnTokens)：以sDelimiter為分隔符分割字串，但如果bReturnTokens為true，則分隔符也作為標記返回。

　　第一個建構函式不檢查輸入字串是否包含子串。例如，如果以空白字元為分隔符分割“hello. Today /"I am /" going to my home town”，則字串分解結果是hello.、Today、"I、am、"、going等，而不是hello.、Today、"I am "、going等。

　　第二個建構函式不檢查兩個分隔符連續出現的情況。例如，如果以“,”為分隔符分割“book, author, publication,,,date published”這個字串，則StringTokenizer返回book、author、publication和date published這四個標記，而不是book、author、publication、""、""和date published這6個標記（其中""表示0長度字串）。要得到6個標記的答案，你必須把StringTokenizer的bReturnTokens引數設定為true。

　　允許設定值為true的bReturnTokens引數是一個重要的功能，因為它考慮到了分隔符連續出現的情況。例如，使用第二個建構函式時，如果資料是動態收集得到而且要用來更新資料庫中的表，輸入字串中的標記對應著表裡面列的值，那麼當我們不能確定哪一個列應該設定為""時，我們就無法把輸入串中的標記對映到資料庫列。假設我們要把記錄插入到一個有6個列的表，而輸入資料中包含兩個連續的分隔符。此時，StringTokenizer的分解結果是5個標記（兩個連續的分隔符代表""標記，它將被StringTokenizer忽略），而我們卻有6個欄位需要設定。同時，我們也不知道連續分隔符在哪裡出現，所以也就不知道哪一個列應該設定成""。

　　當標記本身等同於分隔符（無論是長度還是值）且位於子串之內時，第三個建構函式無效。例如，如果我們要以“,”為分隔符分解字串“book, author, publication,/",/",date published”（這個字串包含一個“,”標記，它與分隔符一樣），結果是book、author、publication、"、"、date published這六個標記，而不是book、author、publication、,（逗號字元）、date published這五個標記。再提醒一下，即使我們把StringTokenizer的bReturnTokens引數設定設定成了true，在這種情況下也沒有什麼幫助。

三、高階字串分解器

　　在編寫程式碼之前，你必須搞清楚一個好的分解器有哪些基本要求。因為Java開發者已經習慣於使用StringTokenizer類，所以一個好的分解器應該提供StringTokenizer類提供的所有實用方法，比如hasMoreTokens()、nextToken()、countTokens()。

　　本文提供的程式碼很簡單，而且大部分程式碼足以自我解釋。在這裡，我主要利用了StringTokenizer類（建立類例項時bReturnTokens引數設定為true），並提供了上面提到的幾個方法。大多數時候標記與分隔符不同，有些時候分隔符卻要作為標記輸出（儘管非常罕見），此時如果出現了對標記的請求，分解器要把分隔符作為標記輸出。建立PowerfulTokenizer物件時，你只需要提供輸入字串和分隔符這兩個引數，PowerfulTokenizer將在內部使用bReturnTokens設定成true的StringTokenizer。（這麼做的原因在於，如果不是用bReturnTokens設定成true的方式建立StringTokenizer，那麼它將在解決先前提出的問題時受到限制）。為了正確地控制分解器，程式碼在幾個地方（計算標記的總數量以及nextToken()）檢查bReturnTokens是否設定成了true。

　　你可能已經發現，PowerfulTokenizer實現了Enumeration介面，從而也就實現了hasMoreElements()和nextElement()這兩個方法，而這兩個方法又分別把呼叫直接委託給hasMoreTokens()和nextToken()。（由於實現了Enumeration介面，PowerfulTokenizer實現了與StringTokenizer的向後相容。）

　　我們來看一個例子，假設輸入字串是“hello, Today,,, /"I, am /", going to,,, /"buy, a, book/"”，分隔符是“,”。用分解器分割這個字串時返回結果如表1所示：

表1：字串分解結果

　　輸入字串包含11個逗號（,）字元，其中3個在子串裡面、4個連續出現（“Today,,,”中包含兩個連續逗號，第一個逗號是Today的分隔符）。下面是PowerfulTokenizer計算標記總數的演算法：

如果bReturnTokens=true，把子串中的分隔符數量乘以2，再從實際總數量減去該數字，就得到了標記的總數。理由是，對於子串“buy, a, book”，StringTokenizer將返回5個標記（即“buy:,:a:,:book”），而PowerfulTokenizer將返回一個標記（即“buy, a, book”），兩者的差值是4（即，2乘以子串中的分隔符數量）。這個公式對於所有包含分隔符的子串都有效。
類似地，對於bReturnTokens=false的情形，我們從實際總數（19）減去表示式[分隔符總數（11）- 連續分隔符數量（4） + 子串中的分隔符數量（3）]。由於這時我們不返回分隔符，它們（非連續出現或在子串內部）對我們來說沒有用，上面的公式為我們返回了標記的總數量（9）。
　　請記住這兩個公式，它們是PowerfulTokenizer的核心。這兩個公式適用於幾乎所有它們各自條件下的情形。但是，如果你有更復雜的要求，不能使用這兩個公式，那麼你應該在編寫程式碼之前分析各種可能出現的情況，並設計出自己的公式。

// 檢查分隔符是否位於子串之內
for (int i = 1; i < aiIndex.length; i++) > / td > {
    iIndex = sInput.indexOf(sDelim, iIndex + 1);
    if (iIndex == -1)
break;
// 如果分隔符位於子串之內，則向前分析直至子串結束
while (sInput.substring(iIndex - iLen, iIndex).equals(sDelim)) {
iNextIndex = sInput.indexOf(sDelim, iIndex + 1);
if (iNextIndex == -1)
    break;
iIndex = iNextIndex;
}
aiIndex[i] = iIndex;
//System.out.println("aiIndex[" + i + "] = " + iIndex);
    if (isWithinQuotes(iIndex)) {
if (bIncludeDelim)
    iTokens -= 2;
else
    iTokens -= 1;
}
}
    　　countTokens() 方法檢查子串是否包含雙引號。如果包含，那麼它減少總數並把索引值修改為字串中下一個雙引號出現的位置（如上面的程式碼片斷所示）。如果bReturnTokens是false ，那麼它從總數減去輸入字串中出現的非連續分隔符的數量。

// 如發現多個連續的分隔符，則返回""作為標記
if ( (sPrevToken.equals(sDelim)) && (sToken.equals(sDelim))) {
sPrevToken = sToken;
iTokenNo++;
return "";
}

// 檢查標記本身是否等於分隔符
if ( (sToken.trim().startsWith("/"")) && (sToken.length() == 1)) {
// 標記本身等於分隔符的特殊情況
String sNextToken = oTokenizer.nextToken();
while (!sNextToken
         sToken += sNextToken;
    sPrevToken = sToken;
iTokenNo++;
return sToken.substring(1, sToken.length() - 1);
}
// 檢查字串中是否包含子串
else if ( (sToken.trim().startsWith("/""))
         && (! ( (sToken.trim().endsWith("/""))
                && (!sToken.trim().endsWith("/"/""))))) {
if (oTokenizer.hasMoreTokens()) {
    String sNextToken = oTokenizer.nextToken();
// 檢查"/"/""
    while (! ( (sNextToken.trim().endsWith("/""))
              && (!sNextToken.trim().endsWith("/"/"")))) {
      sToken += sNextToken;
      if (!oTokenizer.hasMoreTokens()) {
        sNextToken = "";
        break;
      }
      sNextToken = oTokenizer.nextToken();
    }
    sToken += sNextToken;
}
}
　　nextToken()方法通過StringTokenizer.nextToken方法獲取標記，並檢查標記中的雙引號字元。如果發現了這些字元，它繼續獲取標記直至不能再找到帶有雙引號的標記。另外，它還把標記儲存到一個變數（sPrevToken，參見本文後面完整的原始碼）以檢查連續出現的分隔符。如果nextToken()發現等同於分隔符的連續多個標記，那麼它返回""（長度為0的字串）作為標記。

　　按照類似的方法，hasMoreTokens()方法檢查已經返回的標記數量是否小於標記的總數量。

　　【結束語】本文為你介紹瞭如何輕鬆地編寫一個強大的字串分解器。根據本文介紹的原理，你能夠迅速編寫出複雜的字串分解器，節省大量的開發時間

java字串常用方法
2020-08-04
Java字串
對通用骨架提取方法的改進
2024-10-27
java生成json字串的方法
2018-08-28
JavaJSON字串
NSString簡單細說（十）—— 字串的分解
2017-05-11
字串
改進AI/ML部署的5種方法
2019-04-26
AI
改進大語言模型的最全方法！
2024-09-13
模型
java split進行字串分割
2016-12-06
Java字串
精益流程改進的方法的有哪些？
2022-09-07
Java11改進的垃圾回收器
2024-03-05
Java
分解和組合的抽象方法
2014-11-01
抽象
Java 16進位制字串取反
2019-08-30
Java字串
Java 8 的新特性和改進總覽
2013-05-02
Java
對Boost庫中的數值到字串的轉換的改進 (轉)
2007-12-13
字串
一些改進模型速度/精度的工程方法
2020-04-06
模型
meteor 安裝 android sdk慢的改進方法
2015-08-12
Android
提高學習改進記憶的科學方法
2016-05-15
js replace()方法進行字串替換
2017-03-31
JS字串
java程式碼分解EXCEL(一)
2015-10-06
JavaExcel
Java 8型別轉換及改進
2021-09-09
Java型別
Java 8 型別轉換及改進
2015-08-13
Java型別
Java之StringBuffer可變字串（值可以改變）
2018-08-25
Java字串
Laravel框架改進Web App開發的9種方法
2021-03-15
Laravel框架WebAPP
Java8改進的HashMap和Hashtable實現類
2015-09-17
JavaHashMap
JML起步---使用JML 改進你的Java程式(1) (轉)
2007-08-14
Java
JML起步---使用JML 改進你的Java程式(3) (轉)
2007-08-14
Java
JML起步---使用JML 改進你的Java程式(4) (轉)
2007-08-14
Java
JML起步---使用JML 改進你的Java程式(2) (轉)
2007-08-14
Java
在Java中反轉字串的10種方法[Snippets]
2018-11-22
Java字串
Java開發筆記（三十六）字串的常用方法
2018-12-12
Java筆記字串
損失函式改進方法之Focal Loss
2018-01-11
函式
oracle效能改進方法論告訴我們！
2008-05-22
Oracle
Java9新特性系列（Stream改進）
2019-01-18
Java
java 方法呼叫，形參改變，實參是否發生改變
2018-03-16
Java
Java程式碼質量改進之：同步物件的選擇
2018-07-27
Java物件
利用compareTo方法進行字串比較排序
2020-10-28
字串排序
矩陣分解（MF）方法及程式碼
2017-09-21
矩陣
java字串%s格式化替換方法
2024-07-30
Java字串
流程改進，你需要六西格瑪管理方法！
2022-11-14

改進JAVA字串分解的方法

相關文章