XML與HTML
首先,XML與HTML類似的,都是一種標記語言。
當初在設計XML時,並非為了將HTML趕下神壇,實際上,XML是為了另外一種目的設計的。
XML旨在傳輸資訊,HTML旨在顯示資訊
HTML可以有什麼標籤,不能有什麼標籤,是被一系列規範約束的;
但在XML中,可以定義自己的標籤。
XML有什麼用
由於XML是純文字格式的,因此獨立於任何硬體和軟體,是一種真正的跨平臺資料傳輸格式。
在XML的基礎上,許多其它的技術也得以誕生,比如我們最熟悉的web service,WSDL機制便是基於XML來實現的(也有基於JSON實現的)。
這都得益於XML是一種擴充套件性非常高的資料傳輸格式。
語法規則
-
必須有關閉標籤
如<a>,則必須有一個對應的與之配對,當然用<a name=””/>則是一種簡略的縮寫。 -
大小寫敏感
-
XML文件必須有根元素
-
屬性值必須加引號
-
特殊字元的轉義
< - < > - > & - & ' - ` " - "
-
註釋
<!– this is a comment –>
元素命名規則
-
名稱可以含字母、數字以及其他的字元
-
名稱不能以數字或者標點符號開始
-
名稱不能以字元 “xml”(或者 XML、Xml)開始
-
名稱不能包含空格
屬性
屬性必須加引號,如果屬性本身有雙引號,就用單引號包圍它
<a name=`steve "aplple" Jobs` />
XML驗證
有許多驗證方式來驗證XML格式是否良好。常用的有以下兩種:
-
XML DTD
-
XML Schema
XML DTD
合法的 XML 文件是“形式良好”的 XML 文件,同樣遵守文件型別定義 (DTD) 的語法規則:
<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE note SYSTEM "Note.dtd">
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don`t forget the meeting!</body>
</note>
在上例中,DOCTYPE 宣告是對外部 DTD 檔案的引用。下面的段落展示了這個檔案的內容。
<!DOCTYPE note [
<!ELEMENT note (to,from,heading,body)>
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT heading (#PCDATA)>
<!ELEMENT body (#PCDATA)>
]>
XML Schema
W3C 支援一種基於 XML 的 DTD 代替者,它名為 XML Schema:
<xs:element name="note">
<xs:complexType>
<xs:sequence>
<xs:element name="to" type="xs:string"/>
<xs:element name="from" type="xs:string"/>
<xs:element name="heading" type="xs:string"/>
<xs:element name="body" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:element>
XML名稱空間
名稱空間的主要目的是解決元素命名衝突的問題。以下兩份XML配置檔案有命名衝突的問題:
<table>
<tr>
<td>Apples</td>
<td>Bananas</td>
</tr>
</table>
<table>
<name>African Coffee Table</name>
<width>80</width>
<length>120</length>
</table>
使用名稱空間來解決衝突後:
<table xmlns="http://www.w3.org/TR/html4/">
<tr>
<td>Apples</td>
<td>Bananas</td>
</tr>
</table>
<table xmlns="http://www.w3school.com.cn/furniture">
<name>African Coffee Table</name>
<width>80</width>
<length>120</length>
</table>
名稱空間xmlns屬性值本身並沒有多大含義,只是為了區分名稱空間的不同,但實際上xmlns會被開發者用來標識某些資源。
XML CDATA
所有 XML 文件中的文字均會被解析器解析。
只有 CDATA 區段(CDATA section)中的文字會被解析器忽略。
PCDATA
PCDATA 指的是被解析的字元資料(Parsed Character Data)。
XML 解析器通常會解析 XML 文件中所有的文字。
當某個 XML 元素被解析時,其標籤之間的文字也會被解析:
<message>此文字也會被解析</message>
解析器之所以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的 <name> 元素包含著另外的兩個元素(first 和 last):
<name><first>Bill</first><last>Gates</last></name>
而解析器會把它分解為像這樣的子元素:
<name>
<first>Bill</first>
<last>Gates</last>
</name>
CDATA
術語 CDATA 指的是不應由 XML 解析器進行解析的文字資料(Unparsed Character Data)。
在 XML 元素中,”<” 和 “&” 是非法的。
“<” 會產生錯誤,因為解析器會把該字元解釋為新元素的開始。
“&” 也會產生錯誤,因為解析器會把該字元解釋為字元實體的開始。
某些文字,比如 JavaScript 程式碼,包含大量 “<” 或 “&” 字元。為了避免錯誤,可以將指令碼程式碼定義為 CDATA。
CDATA 部分中的所有內容都會被解析器忽略。
CDATA 部分由 “<![CDATA[“ 開始,由 “]]>” 結束:
<script>
<![CDATA[
function matchwo(a,b)
{
if (a < b && a < 0) then
{
return 1;
}
else
{
return 0;
}
}
]]>
</script>
在上面的例子中,解析器會忽略 CDATA 部分中的所有內容。
關於 CDATA 部分的註釋:
CDATA 部分不能包含字串 “]]>”。也不允許巢狀的 CDATA 部分。
標記 CDATA 部分結尾的 “]]>” 不能包含空格或折行。
本文參考W3School XML系列教程