XML入門常見問題(3)(轉)
如何載入有外國和特殊字元的文件?
文件可以包含外國字元,例如:
foreign characters (úóí?)
例如 ?磲 的外國字元必須在前面加上 escape 序列。外國字元可以是 UTF-8 編碼或用不同編碼指定,如下所示:
foreign characters (?磲)
現在可以正確載入 XML 了。
其他字元是保留在 XML 中的,並且需要以不同的方式處理。下面的 XML:
This & that 產生如下錯誤: 此處不允許有空格。 行 0000001: This & that 位置 0000012: ----------^
此處 & 是 XML 句法結構的一部分,如果它僅僅放在 XML 資料來源內部,那麼不能解釋為 &。您需要替換稱為“實體”的特殊字元序列。
This & that 下面的字元需要相應的實體:
< > " " ' '
引號字元被用作標記中屬性值的定界符,因此通常不能在屬性值的內部使用。例如,下面的內容將返回錯誤:
此處的單引號既用作屬性定界符,又在屬性值自身中。為了糾正這個問題,可以將屬性定界符換成雙引號:
或者可以將單引號轉義為實體 '
上述兩種方式都將透過 XML 物件模型中的 getAttribute 方法返回屬性值 John's Stuff。同樣,對於雙引號,您可以使用實體 "。 也可以透過將文字放在 CDATA 節中來處理元素內容中的特殊字元。下面的內容是正確的:
在本例子中,XML 物件模型將 CDATA 節點顯示 xml 節點的子節點,它將返回字串
This & that is just "text" content. 作為 nodeValue。
如何在 Visual Studio 6.0 C++ 中使用 MSXML COM 元件?
在 Visual C++ 6.0 中使用 MSXML COM 元件的最簡便方式是使用 #import 指令:
#import "msxml.dll" named_guids no_namespace#import "msxml.dll" named_guids no_namespace 它定義了所有 IXML* 介面和介面 ID,從而可以在應用程式中使用它們了。也可以從 INETSDK 獲取 MSXML 型別庫和標頭檔案(英文),以及包含類 IIDs 的 uuid.lib。
如何在 XML 中使用 HTML 實體?
下面的 XML 包含 HTML 實體:
Copyright ? 2000, Microsoft Inc, All rights reserved.
它產生下列錯誤:
引用未定義的實體 'copy'。 行: 1, 位置:23, 錯誤碼:0xC00CE002 Copyright ? 2000, ... ----------------------^
這是因為 XML 只有五個內建實體。關於內建實體的詳細資訊,請參閱如何載入有外國和特殊字元的文件?。
要使用 HTML 實體,需要用 DTD 定義它們。有關 DTD 的詳細資訊,請參閱 W3C XML 建議(英文)。要使用該 DTD,請將它直接包括在 DOCTYPE 標記中,如下所示:
Copyright ? 2000, Microsoft Inc, All rights reserved.
要載入它,需要關閉 IXMLDOMDocument 介面的 validateOnParse 屬性。請嘗試將它貼上到“Validator 測試頁”中,關閉 DTD 驗證,然後單擊“驗證”。請注意文件將載入,並且版權字元將顯示在 validator 頁面的末尾的 DOM 樹中。
如果已經完成了 DTD 驗證,那麼必須將作為引數實體的 HTML 實體包括在現有的 DTD 中,如下所示:
%HTMLENT; %HTMLENT;
它將定義所有 HTML 實體,以便在 XML 文件中使用它們。
在元素內容中如何處理空白字元?
XML DOM 有三種訪問元素文字內容的方式:
屬性 行為
nodeValue 按照原始的 XML 源中指定的那樣,返回 TEXT、CDATA、COMMENT 和 PI 節點上的原始文字內容(包括空白字元)。對於 ELEMENT 節點和 DOCUMENT 本身,則返回空值。
資料 與 nodeValue 相同
文字 重複連線指定子樹中的多個 TEXT 和 CDATA 節點並返回組合結果。
注意: 空白字元包括新行、tab 和空格。
nodeValue 屬性通常返回原始文件中的內容,與文件如何載入和當前 xml:space 範圍無關。
文字屬性連線指定子樹中的所有文字並擴充套件實體。這與文件如何載入、preserveWhiteSpace 開關的當前狀態和當前 xml:space 範圍有關,請看如下所示:
preserveWhiteSpace = true when the document is loaded
preserveWhiteSpace=true | preserveWhiteSpace=true | preserveWhiteSpace=false | preserveWhiteSpace=false |
xml:space=preserve | xml:space=default | xml:space=preserve | xml:space=default |
保留 | 保留 | 保留 | 保留並截斷 |
preserveWhiteSpace = false when the document is loaded
preserveWhiteSpace=true | preserveWhiteSpace=true | preserveWhiteSpace=false | preserveWhiteSpace=false |
xml:space=preserve | xml:space=default | xml:space=preserve | xml:space=default |
半保留 | 半保留並截斷 | 半保留 | 半保留並截斷 |
此處的保留表示和原始 XML 文件中完全相同的原始文字內容,截斷意味著前導和尾部空格已經刪除,半保留意味著保留了“重要的空白字元”並規範化了“不重要的空白字元”。重要的空白字元是文字內容內部的空白字元。不重要的空白字元是標記之間的空白字元,請看如下所示:
Jane Smith
在本示例中,紅色是可以忽略的不重要的空白字元,而綠色是重要的空白字元,因為它是文字內容的一部分,因此有不可忽略的重要含義。所以在本例中,文字屬性返回下列結果:
狀態 返回值 保留 "
JaneSmith " 保留並截斷 "JaneSmith" 半保留 " Jane Smith " 半保留並截斷 "Jane Smith"請注意“半保留”將規範化不重要的空白字元,例如,新行和 tab 字元將退化為單個空格。如果更改 xml:space 屬性和 preserveWhiteSpace 開關,那麼文字屬性將返回相應的不同值。
CDATA and xml:space="preserve" subtree boundaries 在下面的例子中,CDATA 節點或“保留”節點的內容將得到連線,原因是它們不參與不重要的空白字元規範化。例如:
Jane Smith ]>
在這種情況下,CDATA 節點內部的空白字元不再與“不重要”空白字元“合併”,並且不會截斷。因此“半保留並截斷”情況將返回下列內容:
"Jane Smith "
在此, 和 標記之間的不重要的空白字元將包括在內,與 CDATA 節點的內容無關。如果用下列內容代替 CDATA,那麼將返回相同結果:
Smith 實體是特殊的
實體是作為 DTD 的一部分載入和分析的,並且顯示在 DOCTYPE 節點下。它們不一定要有任何 xml:space 範圍。例如:
Jane
"> ]> &Jane;假定 preserveWhiteSpace=false(在 DOCTYPE 標記範圍內),在分析實體時不重要的空白字元丟失。實體將不會有空白字元節點。樹將類似於:
DOCTYPE foo ENTITY: Jane ELEMENT: employee ELEMENT: name TEXT: Jane ELEMENT: title TEXT>:Software Design Engineer ELEMENT: foo ATTRIBUTE: xml:space="preserve" ENTITYREF: Jane
請注意,在 DOCTYPE 內部 ENTITY 節點下顯露的 DOM 樹不包含任何 WHITESPACE 節點。這意味著 ENTITYREF 節點的子節點也沒有 WHITESPACE 節點,即使實體引用在 xml:space="preserve" 的範圍內也是這樣。
給定文件中引用的每個 ENTITY 的例項通常都有相同的樹。
如果實體必須絕對保留空白字元,那麼它必須在自己內部指定自己的 xml:space 屬性,或者文件 preserveWhiteSpace 開關必須設定為 true。
如何處理屬性中的空白字元?
有幾種方式可以訪問屬性值。IXMLDOMAttribute 介面有 nodeValue 屬性,它等價於作為 Microsoft 擴充套件的 nodeValue 和 text 屬性。這些屬性返回: 屬性 返回的文字
attrNode.nodeValue attrNode.value getAttribute("name") 返回和原始文件中完全相同的內容(和擴充套件的實體)。 attrNode.nodeTypedValue Null attrNode.text 除了前導和尾部的空白字元已經截斷之外,其他與 nodeValue 相同。
“XML 語言”規範為 XML 應用程式定義了下列行為: 屬性型別 返回的文字 CDATA ID、IDREF、IDREFS、ENTITY、ENTITIES、NOTATION、列舉
半規範化 全規範化
在此半規範化代表將新行和 tab 字元轉換為空格,但是多個空格不會退化為一個空格。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752019/viewspace-950381/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 新手入門 Golang 常見問題Golang
- Nginx入門到實戰(4)常見問題Nginx
- 前端入門-day2(常見css問題及解答)前端CSS
- PHP 安全問題入門:10 個常見安全問題 + 例項講解PHP
- 常見問題
- WPS Office Mac登入常見問題問答Mac
- 把TXT文字匯入SQLServer常見問題SQLServer
- IPv6轉換常見問題盤點
- js常見問題JS
- Homestead 常見問題
- Apache 常見問題Apache
- Linux 常見問題Linux
- Git 常見問題Git
- PHP 常見問題PHP
- swiper常見問題
- Composer 常見問題
- HTML常見問題HTML
- Git常見問題Git
- 前端常見問題前端
- 【Nginx】常見問題Nginx
- ndk 常見問題
- CSS常見問題CSS
- nginx 常見問題Nginx
- Mysql:常見問題MySql
- XSS常見問題
- MyBatis常見問題MyBatis
- java 常見問題Java
- 雲大使推廣中的常見熱門問題
- Docker常見面試題及答案!Linux入門教程Docker面試題Linux
- Android Studio常見問題(+)Android
- weex常見問題解析
- sonar常見問題分析
- CSS效果常見問題CSS
- 前端常見問題 - vue前端Vue
- JMeter—常見問題(十四)JMeter
- APatch常見問題解答
- 字串混淆常見問題字串
- RapidWeaver 8常見問題API
- 前端常見問題整理前端