XML入門常見問題(3)(轉)[@more@]

　　如何載入有外國和特殊字元的文件？

　　文件可以包含外國字元，例如：

　　　　foreign characters (úóí?)　

　　　　例如 ?磲的外國字元必須在前面加上 escape 序列。外國字元可以是 UTF-8 編碼或用不同編碼指定，如下所示：

　　　　foreign characters (?磲)　

　　　　現在可以正確載入 XML 了。

　　其他字元是保留在 XML 中的，並且需要以不同的方式處理。下面的 XML：

　　　　This & that　　產生如下錯誤：　　此處不允許有空格。　　行 0000001: This & that　　位置　0000012: ----------^

　　　　此處 & 是 XML 句法結構的一部分，如果它僅僅放在 XML 資料來源內部，那麼不能解釋為 &。您需要替換稱為“實體”的特殊字元序列。

　　This & that　　下面的字元需要相應的實體：

　　　　< >　　" "　　' '

　　　　引號字元被用作標記中屬性值的定界符，因此通常不能在屬性值的內部使用。例如，下面的內容將返回錯誤：

　　此處的單引號既用作屬性定界符，又在屬性值自身中。為了糾正這個問題，可以將屬性定界符換成雙引號：

　　或者可以將單引號轉義為實體 '

　　上述兩種方式都將透過 XML 物件模型中的 getAttribute 方法返回屬性值 John's Stuff。同樣，對於雙引號，您可以使用實體　　"。　　也可以透過將文字放在 CDATA 節中來處理元素內容中的特殊字元。下面的內容是正確的：

　　在本例子中，XML 物件模型將 CDATA 節點顯示 xml 節點的子節點，它將返回字串

　　This & that　is just "text" content.　　作為 nodeValue。

　　如何在 Visual Studio 6.0 C++ 中使用 MSXML COM 元件？

　　在 Visual C++ 6.0 中使用 MSXML COM 元件的最簡便方式是使用 #import 指令：

　　#import "msxml.dll" named_guids no_namespace#import "msxml.dll" named_guids no_namespace　　它定義了所有 IXML* 介面和介面 ID，從而可以在應用程式中使用它們了。也可以從 INETSDK 獲取 MSXML 型別庫和標頭檔案（英文），以及包含類 IIDs 的 uuid.lib。

　　如何在 XML 中使用 HTML 實體？

　　下面的 XML 包含 HTML 實體：

　　　　它產生下列錯誤：

　　　　引用未定義的實體 'copy'。　　行： 1, 位置：23, 錯誤碼：0xC00CE002　　Copyright ? 2000, ...　　----------------------^

　　　　這是因為 XML 只有五個內建實體。關於內建實體的詳細資訊，請參閱如何載入有外國和特殊字元的文件？。

　　要使用 HTML 實體，需要用 DTD 定義它們。有關 DTD 的詳細資訊，請參閱 W3C XML 建議（英文）。要使用該 DTD，請將它直接包括在 DOCTYPE 標記中，如下所示：

　　要載入它，需要關閉 IXMLDOMDocument 介面的 validateOnParse 屬性。請嘗試將它貼上到“Validator 測試頁”中，關閉 DTD 驗證，然後單擊“驗證”。請注意文件將載入，並且版權字元將顯示在 validator 頁面的末尾的 DOM 樹中。

　　如果已經完成了 DTD 驗證，那麼必須將作為引數實體的 HTML 實體包括在現有的 DTD 中，如下所示：

　　　　%HTMLENT;　　%HTMLENT;

　　　　它將定義所有 HTML 實體，以便在 XML 文件中使用它們。

　　在元素內容中如何處理空白字元？

　　XML DOM 有三種訪問元素文字內容的方式：

　　屬性行為

　　nodeValue 按照原始的 XML 源中指定的那樣，返回 TEXT、CDATA、COMMENT 和 PI 節點上的原始文字內容（包括空白字元）。對於 ELEMENT 節點和 DOCUMENT 本身，則返回空值。

　　資料與 nodeValue 相同

　　文字重複連線指定子樹中的多個 TEXT 和 CDATA 節點並返回組合結果。

　　注意：空白字元包括新行、tab 和空格。

　　nodeValue 屬性通常返回原始文件中的內容，與文件如何載入和當前 xml:space 範圍無關。

　　文字屬性連線指定子樹中的所有文字並擴充套件實體。這與文件如何載入、preserveWhiteSpace 開關的當前狀態和當前 xml:space 範圍有關，請看如下所示：

　　preserveWhiteSpace = true when the document is loaded

preserveWhiteSpace=true	preserveWhiteSpace=true	preserveWhiteSpace=false	preserveWhiteSpace=false
xml:space=preserve	xml:space=default	xml:space=preserve	xml:space=default
保留	保留	保留	保留並截斷

　　preserveWhiteSpace = false when the document is loaded

preserveWhiteSpace=true	preserveWhiteSpace=true	preserveWhiteSpace=false	preserveWhiteSpace=false
xml:space=preserve	xml:space=default	xml:space=preserve	xml:space=default
半保留	半保留並截斷	半保留	半保留並截斷

　　此處的保留表示和原始 XML 文件中完全相同的原始文字內容，截斷意味著前導和尾部空格已經刪除，半保留意味著保留了“重要的空白字元”並規範化了“不重要的空白字元”。重要的空白字元是文字內容內部的空白字元。不重要的空白字元是標記之間的空白字元，請看如下所示：

　　　　Jane

　　 Smith　　

　　　　在本示例中，紅色是可以忽略的不重要的空白字元，而綠色是重要的空白字元，因為它是文字內容的一部分，因此有不可忽略的重要含義。所以在本例中，文字屬性返回下列結果：

　　狀態返回值　　保留 "

　　Jane

Smith　　

"　　保留並截斷 "Jane

Smith"　　半保留 "　　Jane Smith　　"　　半保留並截斷 "Jane Smith"

　　請注意“半保留”將規範化不重要的空白字元，例如，新行和 tab 字元將退化為單個空格。如果更改 xml:space 屬性和 preserveWhiteSpace 開關，那麼文字屬性將返回相應的不同值。

　　CDATA and xml:space="preserve" subtree boundaries　　在下面的例子中，CDATA 節點或“保留”節點的內容將得到連線，原因是它們不參與不重要的空白字元規範化。例如：

　　 Jane

　　　　 Smith　　 ]>

　　　　在這種情況下，CDATA 節點內部的空白字元不再與“不重要”空白字元“合併”，並且不會截斷。因此“半保留並截斷”情況將返回下列內容：

　　"Jane　　　Smith　　 "

　　在此，和標記之間的不重要的空白字元將包括在內，與 CDATA 節點的內容無關。如果用下列內容代替 CDATA，那麼將返回相同結果：

　　Smith　　　實體是特殊的

　　實體是作為 DTD 的一部分載入和分析的，並且顯示在 DOCTYPE 節點下。它們不一定要有任何 xml:space 範圍。例如：

　　　　Jane

　　">　　]>　　&Jane;

　　　　假定 preserveWhiteSpace=false（在 DOCTYPE 標記範圍內），在分析實體時不重要的空白字元丟失。實體將不會有空白字元節點。樹將類似於：

　　　　DOCTYPE foo　　ENTITY: Jane　　ELEMENT: employee　　ELEMENT: name　　TEXT: Jane　　ELEMENT: title　　TEXT>:Software Design Engineer　　ELEMENT: foo　　ATTRIBUTE: xml:space="preserve"　　ENTITYREF: Jane

　　　　請注意，在 DOCTYPE 內部 ENTITY 節點下顯露的 DOM 樹不包含任何 WHITESPACE 節點。這意味著 ENTITYREF 節點的子節點也沒有 WHITESPACE 節點，即使實體引用在 xml:space="preserve" 的範圍內也是這樣。

　　給定文件中引用的每個 ENTITY 的例項通常都有相同的樹。

　　如果實體必須絕對保留空白字元，那麼它必須在自己內部指定自己的 xml:space 屬性，或者文件 preserveWhiteSpace 開關必須設定為 true。

　　如何處理屬性中的空白字元？

　　有幾種方式可以訪問屬性值。IXMLDOMAttribute 介面有 nodeValue 屬性，它等價於作為 Microsoft 擴充套件的 nodeValue 和 text 屬性。這些屬性返回：屬性返回的文字

　　　　attrNode.nodeValue　　attrNode.value　　getAttribute("name") 返回和原始文件中完全相同的內容（和擴充套件的實體）。　　attrNode.nodeTypedValue Null　　attrNode.text 除了前導和尾部的空白字元已經截斷之外，其他與 nodeValue 相同。　

　　　　“XML 語言”規範為 XML 應用程式定義了下列行為：屬性型別返回的文字　　CDATA ID、IDREF、IDREFS、ENTITY、ENTITIES、NOTATION、列舉

　　半規範化全規範化

　　在此半規範化代表將新行和 tab 字元轉換為空格，但是多個空格不會退化為一個空格。

XML入門常見問題(3)(轉)

相關文章