JAXP 專述??Sun 的 Java API for XML 語法分析(轉)

amyz發表於2007-08-12
JAXP 專述??Sun 的 Java API for XML 語法分析(轉)[@more@]

  這是篇細探 JAXP,Sun 的 Java API for XML 的文章,幫助解除了有關 JAXP 本質和服務目的的疑惑。本文講解了 JAXP 的基本概念,演示 XML 語法分析為什麼需要 JAXP,並顯示如何輕易更改 JAXP 使用的語法分析器。本文還進一步講述了 SAX 和 DOM 這兩個流行的與 JAXP 相關的 Java 和 XML API。

  Java 和 XML 在每一個技術領域都製造了新聞,並且對於軟體開發人員來說,似乎是 1999 年和 2000 年最重要的發展。結果,Java 和 XML API 的數量激增。其中兩個最流行的 DOM 和 SAX 還引起極大興趣,而 JDOM 和資料繫結 API 也接踵而來。只透徹理解這些技術中的一個或兩個就是一項艱鉅任務,而正確使用所有這些技術就會使您成為專家。但在去年,另一個 API 給人留下了深刻印象,它就是 Sun 的 Java API for XML,通常稱為 JAXP。如果考慮到 Sun 在其平臺上還沒有任何特定於 XML 的產品,那麼這個進展就不足為奇。而令人驚奇的是人們對 JAXP 瞭解的缺乏。多數使用它的開發人員在他們所用的這個 API 的概念理解上都有錯誤。

  什麼是 JAXP?

  本文假設您有 SAX 和 DOM 的基本知識。這裡實在沒有足夠篇幅來解釋 SAX、DOM 和 JAXP。如果您是 XML 語法分析的新手,那麼可能要透過聯機資源閱讀 SAX 和 DOM,或者瀏覽我的書。( 參考資源 一節中有至 API 和我的書的連結。)獲得基本知識後再看本文會比較好。

  API 還是抽象?

  在講解程式碼之前,介紹一些基本概念很重要。嚴格地說,JAXP 是 API,但是將其稱為抽象層更準確。它不提供處理 XML 的新方式,不補充 SAX 或 DOM,也不向 Java 和 XML 處理提供新功能。(如果在這點上理解有誤,則本文正好適合您!)它只是使透過 DOM 和 SAX 處理一些困難任務更容易。如果在使用 DOM 和 SAX API 時遇到特定於供應商的任務,它還使透過獨立於供應商的方式處理這些任務成為可能。

  雖然要分別講述所有這些特性,但是真正需要掌握的是:JAXP 不提供語法分析功能 !沒有 SAX、DOM 或另一個 XML 語法分析 API,就 無法分析 XML 語法 。有很多人曾讓我將 DOM、SAX 或 JDOM 與 JAXP 進行對比。但進行這些對比是不可能的,因為前三個 API 與 JAXP 的目的完全不同。SAX、DOM 和 JDOM 都分析 XML 語法。而 JAXP 卻提供到達這些語法分析器和結果的方式。它自身不提供分析文件語法的新方法。如果要正確使用 JAXP,則一定要弄清這點。這將使您比其它 XML 開發人員領先一大截。

  如果仍然懷疑(或認為我故弄玄虛),請從 Sun 的 Web 站點下載 JAXP 分發(請參閱 參考資料 一節),然後就會知道基本 JAXP 是什麼。在包括的 jar ( jaxp.jar ) 中 只有六個類 !這個 API 會有多難哪?所有這些類( javax.xml.parsers 包的一部分)都位於現有語法分析器之上。這些類中的兩個還用於錯誤處理。JAXP 比人們想象的要簡單得多。那麼,為什麼還感到困惑哪?

  Sun 的 JAXP 和 Sun 的語法分析器

  JAXP 下載時包括 Sun 的語法分析器。所有 parser 器類作為 com.sun.xml.parser 包和相關子包的一部分位於 parser.jar 檔案中。應該知道,該語法分析器(程式碼名為 Crimson) 不 是 JAXP 自身的一部分。它是 JAXP 版本的一部分,但不是 JAXP API 的一部分。令人困惑嗎?有一點。換這種方式想想:JDOM 與 Apache Xerces 語法分析器一起提供。該語法分析器不是 JDOM 的一部分,但由 JDOM 使用,所以包括它,以確保 JDOM 可以單獨使用。JAXP 也是如此,但不象 JDOM 那樣好表達:JAXP 與 Sun 的語法分析器一起提供,以便可以立即使用。但是,很多人將 Sun 的語法分析器中包括的類當成 JAXP API 的一部分。例如,新聞組中一個常見的問題是:“怎樣使用 JAXP 中的 XMLDocument 類?其目的是什麼?”這個答案可有些複雜。

  首先, com.sun.xml.tree.XMLDocument 類不是 JAXP 的一部分。它是 Sun 語法分析器的一部分。所以,這個問題從一開始就給人以誤導。其次,JAXP 的整個意義在於在處理語法分析器時提供供應商獨立性。使用 JAXP 的同一程式碼可以與 Sun 的 XML 語法分析器、Apache 的 Xerces XML 語法分析器和 Oracle 的 XML 語法分析器一起使用。而使用特定於 Sun 的類是個壞主意。這與 JAXP 的整個意義相背離。現在看出來這個問題怎樣混淆概念了嗎?語法分析器和 JAXP 發行版本(至少是 Sun 的版本)中的 API 被混為一談,開發人員將其中一個的類和特性當成是另一個的了,反之亦然。

  舊和新

  關於 JAXP,最後需要指出的是:使用 JAXP 有一些缺陷。例如,JAXP 只支援 SAX 1.0 和 DOM 第一層規範。SAX 2.0 從 2000 年 5 月起就完成,DOM 第二層規範支援甚至在大多數語法分析器中存在更長時間。DOM 第二層規範還沒有完成,但確實足夠穩定以用於生產。這兩個 API 的新版本都有重大改進,最明顯的是對 XML 名稱空間的支援。該支援還允許“XML Schema 確認”,這個與 XML 相關的另一熱門技術。公平地說,當 JAXP 釋出 1.0 最終發行版時,SAX 2.0 和 DOM 第一層規範都還沒有完成。但是,由於沒有包括這些新版本,確實為開發人員帶來很大不便。

  還可以使用 JAXP,但是也可以等待 JAXP 1.1,它支援 SAX 2.0 和 DOM第二層規範 。否則,將發現,JAXP 提供的優點以 SAX 和 DOM 最新版本中的功能為代價,並使應用程式更加難以編碼。無論是否等待下一個 JAXP 發行版,都要留意這個問題。如果將 JAXP 與語法分析器一起使用,而語法分析器支援的 DOM 和 SAX 版本比 JAXP 支援的要高,則可能會有類路徑問題。所以,事先留意一下,並且,一旦有 JAXP 1.1,馬上升級。基本理解 JAXP 之後,讓我們看一下 JAXP 依賴的 API:SAX 和 DOM。

  從 SAX 開始

  SAX (Simple API for XML)是用於處理 XML 的事件驅動方法。它基本由許多回撥函式組成。例如,每當 SAX 語法分析器遇到元素的開始標記時就呼叫 startElement() 。對於字串,將呼叫 characters() 回撥函式,然後在元素結束標記處呼叫 endElement() 。還有很多回撥函式用於文件處理、錯誤和其它詞彙結構。現在知道這是怎麼回事了。SAX 程式設計師實現一個定義這些回撥函式的 SAX 介面。SAX 還實現一個名為 HandlerBase 的類,該類實現所有這些回撥函式,並提供所有這些回撥方法的預設空實現。(提到這一點是因為它在後面講到的 DOM 中很重要。)SAX 開發人員只需擴充套件這個類,然後實現需要插入特定邏輯的方法。所以,SAX 的關鍵在於為這些不同的回撥函式提供程式碼,然後允許語法分析器在適當的時候觸發這些回撥函式中的每一個。

  因此,典型的 SAX 過程如下:

  • 用特定供應商的語法分析器實現建立一個 SAXParser 例項
  • 註冊回撥實現(例如,透過使用擴充套件 HandlerBase 的類)
  • 開始進行語法分析,然後在觸發回撥實現時等待

  JAXP 的 SAX 元件提供執行所有這些步驟的簡單方式。如果沒有 JAXP,SAX 語法分析器要直接從供應商類(如 org.apache.xerces.parsers.SAXParser )進行例項化,或者必須使用名為 ParserFactory 的幫助類。第一個方法的問題很明顯:不獨立於供應商。第二個方法的問題在於類廠需要一個自變數,即要使用的語法分析器類的字串名稱(還是那個 Apache 類 org.apache.xerces.parsers.SAXParser )。可以透過將不同語法分析器作為 String 傳遞來更改語法分析器。使用這種方法不必更改任何 import 語句,但是還是要重新編譯類。這顯然不是最佳解決方案。如果能夠不重新編譯類而更改語法分析器,可能會簡單得多,是不是這樣呢?

  JAXP 提供了更好的替代方法:它允許將語法分析器作為 Java 系統屬性來提供。當然,當從 Sun 下載版本時,將得到使用 Sun 語法分析器的 JAXP 實現。可以從 Apache XML Web 站點下載在 Apache Xerces 上構建其實現的相同 JAXP 介面。因此(無論哪一種情況),更改正在使用的語法分析器需要更改類路徑設定,即從一種語法分析器實現更改到另一個,但是 不要求重新編譯程式碼。這就是 JAXP 的魔力,或抽象性。

  SAX 語法分析器一瞥

  JAXP SAXParserFactory 類是能夠輕易更改語法分析器實現的關鍵所在。必須建立這個類的新例項(等一會將講到)。建立新例項之後,類廠提供一個方法來獲得支援 SAX 的語法分析器。在內部,JAXP 實現處理依賴於供應商的程式碼,使您的程式碼不受影響。這個類廠還提供其它一些優秀特性。

  除建立 SAX 語法分析器例項的基本工作之外,類廠還允許設定配置選項。這些選項影響所有透過類廠獲得的語法分析器例項。JAXP 1.0 中兩個可用的功能是設定名稱空間敏感性 ( setNamespaceAware (boolean awareness)),和開啟確認 ( setValidating (boolean validating))。請記住,一旦設定了這些選項,在呼叫該方法之後,它們將影響 所有從 類廠獲得的例項。

  設定了類廠之後,呼叫 newSAXParser() 將返回一個隨時可用的 JAXP SAXParser 類例項。這個類封裝了一個下層的 SAX 語法分析器(SAX 類 org.xml.sax.Parser 的例項)。它還防止向語法分析器類新增任何特定於供應商的附加功能。(還記得以前對 XmlDocument 的討論嗎?)這個類可以開始進行實際的語法分析。以下清單顯示如何建立、配置和使用 SAX 類廠。

  清單 1. 使用 SAXParserFactory

  import java.io.File;import java.io.IOException;import java.io.OutputStreamWriter;import java.io.Writer;// JAXPimport javax.xml.parsers.FactoryConfigurationError;import javax.xml.parsers.ParserConfigurationException;import javax.xml.parsers.SAXParserFactory;import javax.xml.parsers.SAXParser;// SAXimport org.xml.sax.AttributeList;import org.xml.sax.HandlerBase;import org.xml.sax.SAXException;public class TestSAXParsing {public static void main(String[] args) {try {if (args.length != 1) {System.err.println ("Usage: java TestSAXParsing [filename]");System.exit (1);}// 獲得SAX 語法分析器類廠SAXParserFactory factory = SAXParserFactory.newInstance();//設定設定名稱空間敏感性選項,關掉確認選項factory.setValidating(true);factory.setNamespaceAware(false);SAXParser parser = factory.newSAXParser();parser.parse(new File(args[0]), new MyHandler());} catch (ParserConfigurationException e) {System.out.println("The underlying parser does not support " +" the requested features.");} catch (FactoryConfigurationError e) {System.out.println("Error occurred obtaining SAX Parser Factory.");} catch (Exception e) {e.printStackTrace();}}}class MyHandler extends HandlerBase {//透過 DocumentHandler, ErrorHandler等實現的SAX回撥函式}

  請注意,在這段程式碼中,在使用類廠時可能發生兩個特定於 JAXP 的問題:無法獲得或配置 SAX 類廠,以及無法配置 SAX 語法分析器。當無法獲得 JAXP 實現中指定的語法分析器或系統屬性時,通常會發生第一個問題 FactoryConfigurationError 。當正在使用的語法分析器中的特性不可用時,會發生第二個問題 ParserConfigurationException 。這兩個問題都容易處理,應該不會對 JAXP 的使用造成任何困難。

  在獲得類廠、關閉名稱空間並開啟“確認”之後,將獲得 SAXParser ,然後開始語法分析。請注意, SAX 語法分析器的 parse() 方法取得前面提到的 SAX HandlerBase 類的一個例項。(可以透過完整的 Java 清單 檢視該類的實現 。)還要傳遞要進行語法分析的檔案。但是, SAXParser 所包含的遠不止這一個方法。

  使用 SAX 語法分析器

  獲得 SAXParser 類的例項之後,除了向語法分析器傳遞 File 進行語法分析之外,還可以用它做更多的事。由於如今大型應用中的應用程式元件之間通訊方式,“物件例項建立者就是其使用者”這樣的假定並不總是安全的。換句話說,一個元件可能建立 SAXParser 例項,而另一元件(可能由另一開發人員編碼)可能需要使用那個例項。由於這個原因,提供了一些方法來確定語法分析器的設定。執行此任務的兩個方法是 isValidating() ,它通知呼叫程式:語法分析器將要、或不要執行“確認”,以及 isNamespaceAware() ,它返回一個指示,說明語法分析器可以或不可以處理 XML 文件中的名稱空間。雖然這些方法能提供有關語法分析器可以執行功能的資訊,但是無法更改這些特性。必須在語法分析器類廠級別執行該操作。

  另外,有多種方法來請求對文件進行語法分析。除了只接受 File 和 SAX HandlerBase 例項,SAXParser 的 parse() 方法還能以 String 形式接受 SAX InputSource 、Java InputStream 或 URL,所有這些都要與 HandlerBase 例項一起提供。所以,不同型別的輸入文件可以用不同方式的語法分析來處理。

  最後,可以直接透過 SAXParser 的 getParser() 方法獲得和使用下層的 SAX 語法分析器( org.xml.sax.Parser 的例項)。獲得這個下層例項之後,就可以獲得通常的 SAX 方法。下一個清單顯示 SAXParser 類(這個 JAXP 中 SAX 語法分析的核心類)的各種使用示例。

  清單 2. 使用 JAXP SAXParser

  //獲得SAXP的一個例項SAXParser saxParser = saxFactory.newSAXParser();//檢視是否支援 Validate 選項boolean isValidating = saxParser.isValidating();//檢視是否支援 namespace 選項boolean isNamespaceAware = saxParser.isNamespaceAware();// 運用一個File 和一個SAX HandlerBase 的例項進行多種形式的語法分析saxParser.parse(new File(args[0]), myHandlerBaseInstance);// 運用一個 SAX InputSource例項 和一個 SAX HandlerBase 例項saxParser.parse(mySaxInputSource, myHandlerBaseInstance);//運用一個 InputStream 例項和一個SAX HandlerBase 例項saxParser.parse(myInputStream, myHandlerBaseInstance);// 運用一個 URI 和一個SAX HandlerBase 例項saxParser.parse("", myHandlerBaseInstance);//獲得底層的(封裝)SAX 語法分析器org.xml.sax.Parser parser = saxParser.getParser();//利用底層的語法分析器parser.setContentHandler(myContentHandlerInstance);parser.setErrorHandler(myErrorHandlerInstance);parser.parse(new org.xml.sax.InputSource(args[0]));

  目前為止,關於 SAX 已經講了很多,但是還沒有揭示任何不尋常或令人驚奇的東西。事實上,JAXP 的功能很少,特別是當 SAX 也牽涉進來時。這很好,因為有最少的功能性意味著程式碼可移植性更強,並可以由其他開發人員與任何與 SAX 相容的 XML 語法分析器一起使用,無論是免費(透過開放原始碼,希望如此)還是透過商業途徑。就是這樣。在 JAXP 中使用 SAX 沒有更多的東西。如果已經知道 SAX,那麼現在已經掌握大約 98% 的內容。只需學習兩個新類和兩個 Java 異常,您就可以開始了。如果從沒使用過 SAX,那也很簡單,現在就可以開始。

  處理 DOM

  如果要休息以迎接 DOM 挑戰,那麼先別休息。在 JAXP 中使用 DOM 的過程與 SAX 幾乎相同,所要做的全部只是更改兩個類名和一個返回型別,這樣就差不多了。如果理解 SAX 的工作原理和 DOM 是什麼,則不會有任何問題。

  DOM 和 SAX 的主要差異是它們的 API 結構。SAX 包含一個基於事件的回撥函式集,而 DOM 有一個記憶體中的樹狀結構。換句話說,在 SAX 中,從不需要運算元據結構(除非開發人員手工建立)。因此,SAX 不提供修改 XML 文件的功能。而 DOM 正好提供這種型別的功能。 org.w3c.dom.Document 類表示 XML 文件,它由表示元素、屬性和其它 XML 結構的 DOM 節點 組成。所以,JAXP 無需觸發 SAX 回撥,它只負責從語法分析返回一個 DOM Document 物件。

  DOM 語法分析器類廠一瞥

  基本理解 DOM 以及 DOM 和 SAX 的差異之後,就沒什麼好說的了。以下程式碼看起來與 SAX 程式碼類似。首先,獲得 DocumentBuilderFactory (與 SAX 中的方式相同)。然後,配置類廠來處理確認和名稱空間(與 SAX 中的方式相同)。下一步,從類廠中檢索 DocumentBuilder (它與 SAXParser 類似)(與 SAX 中的方式相同. . . 啊,您都知道了)。然後,就可以進行語法分析了,產生的 DOM Document 物件傳遞給列印 DOM 樹的方法。

  清單 3. 使用文件構建器類廠

  import java.io.File;import java.io.IOException;import java.io.OutputStreamWriter;import java.io.Writer;// JAXPimport javax.xml.parsers.FactoryConfigurationError;import javax.xml.parsers.ParserConfigurationException;import javax.xml.parsers.DocumentBuilderFactory;import javax.xml.parsers.DocumentBuilder;// DOMimport org.w3c.dom.Document;import org.w3c.dom.DocumentType;import org.w3c.dom.NamedNodeMap;import org.w3c.dom.Node;import org.w3c.dom.NodeList;public class TestDOMParsing {public static void main(String[] args) {try {if (args.length != 1) {System.err.println ("Usage: java TestDOMParsing [filename]");System.exit (1);}// 獲得 Document Builder FactoryDocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();//開啟確認選項,關掉名稱空間敏感性選項。factory.setValidating(true);factory.setNamespaceAware(false);DocumentBuilder builder = factory.newDocumentBuilder();Document doc = builder.parse(new File(args[0]));// 從DOM 數中列印文件,並加一初始空格printNode(doc, "");// 在這裡也可以對 DOM 文件進行修改} catch (ParserConfigurationException e) {System.out.println("The underlying parser does not support the requested features.");} catch (FactoryConfigurationError e) {System.out.println("Error occurred obtaining Document Builder Factory.");} catch (Exception e) {e.printStackTrace();}}private static void printNode(Node node, String indent) {// 列印 DOM 樹}

  此程式碼中可能會出現兩個不同的問題(與 JAXP 中的 SAX 類似): FactoryConfigurationError 和 ParserConfigurationException 。每一個的原因與 SAX 中的相同。不是實現類 ( FactoryConfigurationError ) 中有問題,就是語法分析器不支援請求的特性 ( ParserConfigurationException )。DOM 和 SAX 的唯一差異是:在 DOM 中,用 DocumentBuilderFactory 替代 SAXParserFactory ,用 DocumentBuilder 替代 SAXParser 。就這麼簡單!(可以 檢視完整程式碼清單 ,該清單包括用於列印 DOM 樹的方法。)

  使用 DOM 語法分析器

  有了 DOM 類廠之後,就可以獲得 DocumentBuilder 例項。 DocumentBuilder 例項可以使用的方法與 SAX 的非常類似。主要差異是 parse() 的變種不需要 HandlerBase 類的例項。它們返回表示語法分析之後的 XML 文件的 DOM Document 例項。另一唯一不同之處是:為類似於 SAX 的功能提供了兩個方法:用 SAX ErrorHandler 實現來處理語法分析時可能出現的問題的 setErrorHandler() ,和用 SAX EntityResolver 實現來處理實體解析的 setEntityResolver() 。如果不熟悉這些概念,則需要透過聯機或在我的書中學習 SAX。以下清單顯示使用這些方法的示例。

  清單 4. 使用 JAXP DocumentBuilder

    //獲得一個 DocumentBuilder 例項DocumentBuilder builder = builderFactory.newDocumentBuilder();//檢視是否支援 Validate 選項boolean isValidating = builder.isValidating(); //檢視是否支援 namespace 選項boolean isNamespaceAware = builder.isNamespaceAware();// 設定一個 SAX ErrorHandlerbuilder.setErrorHandler(myErrorHandlerImpl);// 設定一個 SAX EntityResolverbuilder.setEntityResolver(myEntityResolverImpl);// 運用多種方法對 file 進行語法分析Document doc = builder.parse(new File(args[0]));// 運用 SAX InputSourceDocument doc = builder.parse(mySaxInputSource);// 運用 InputStreamDocument doc = builder.parse(myInputStream, myHandlerBaseInstance);// 運用 URIDocument doc = builder.parse("");

  是不是感到 DOM 這一節有些令人厭煩?有這種想法的不止您一個,寫 DOM 程式碼有些令人厭煩是因為它是直接取得所學的 SAX 知識,然後將其用於 DOM。因此,和朋友、同事打賭吧,說使用 JAXP 只是小菜一碟。

  更改語法分析器

  最後要探討的主題是 JAXP 輕易更改類廠類使用的語法分析器的能力。更改 JAXP 使用的語法分析器實際意味著更改 類廠,因為所有 SAXParser 和 DocumentBuilder 例項都來自這些類廠。既然確定裝入哪個語法分析器的是類廠,因此,必須更改類廠。可以透過設定 Java 系統屬性 javax.xml.parsers.SAXParserFactory 來更改要使用的 SAXParserFactory 介面實現。如果沒有定義該屬性,則返回預設實現(供應商指定的任何語法分析器)。相同原理適用於 DocumentBuilderFactory 實現。在這種情況下,將查詢 javax.xml.parsers.DocumentBuilderFactory 系統屬性。就這麼簡單,我們已經學完了!這就是 SAXP 的全部:提供到 SAX 的掛鉤,提供到 DOM 的掛鉤,並允許輕易更改語法分析器。

  結束語

  如您所見,沒多少複雜的東西。更改系統屬性,透過類廠、而不是語法分析器或構建器來設定“確認”,以及弄清楚JAXP實際上不是人們通常所認為的那樣,這些是使用 JAXP 的最困難部分。除了沒有 SAX 2.0 和 DOM第二層規範支援之外,JAXP 在兩個流行的 Java 和 XML API 之上提供一個有幫助的可插入層。它使程式碼獨立於供應商,並允許不編譯語法分析程式碼而更改語法分析器。那麼,從 Sun、Apache XML 或其它方便之處下載 JAXP,並使用它吧!


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752019/viewspace-950146/,如需轉載,請註明出處,否則將追究法律責任。

相關文章