非Web開發者所關注的XML基礎

beanlam發表於2016-01-24

XML與HTML

首先,XML與HTML類似的,都是一種標記語言。

當初在設計XML時,並非為了將HTML趕下神壇,實際上,XML是為了另外一種目的設計的。

XML旨在傳輸資訊,HTML旨在顯示資訊

HTML可以有什麼標籤,不能有什麼標籤,是被一系列規範約束的;
但在XML中,可以定義自己的標籤。

XML有什麼用

由於XML是純文字格式的,因此獨立於任何硬體和軟體,是一種真正的跨平臺資料傳輸格式。

在XML的基礎上,許多其它的技術也得以誕生,比如我們最熟悉的web service,WSDL機制便是基於XML來實現的(也有基於JSON實現的)。

這都得益於XML是一種擴充套件性非常高的資料傳輸格式。

語法規則

  • 必須有關閉標籤
    如&lta>,則必須有一個對應的與之配對,當然用&lta name=””/>則是一種簡略的縮寫。

  • 大小寫敏感

  • XML文件必須有根元素

  • 屬性值必須加引號

  • 特殊字元的轉義

    &lt;   -  <
    &gt;   -  >
    &amp;  -  &
    &apos; -  `
    &quot; -  "
  • 註釋
    <!– this is a comment –>

元素命名規則

  • 名稱可以含字母、數字以及其他的字元

  • 名稱不能以數字或者標點符號開始

  • 名稱不能以字元 “xml”(或者 XML、Xml)開始

  • 名稱不能包含空格

屬性

屬性必須加引號,如果屬性本身有雙引號,就用單引號包圍它

<a name=`steve "aplple" Jobs` />

XML驗證

有許多驗證方式來驗證XML格式是否良好。常用的有以下兩種:

  • XML DTD

  • XML Schema

XML DTD

合法的 XML 文件是“形式良好”的 XML 文件,同樣遵守文件型別定義 (DTD) 的語法規則:

<?xml version="1.0" encoding="ISO-8859-1"?>
<!DOCTYPE note SYSTEM "Note.dtd">
<note>
<to>George</to>
<from>John</from>
<heading>Reminder</heading>
<body>Don`t forget the meeting!</body>
</note>  

在上例中,DOCTYPE 宣告是對外部 DTD 檔案的引用。下面的段落展示了這個檔案的內容。

<!DOCTYPE note [
  <!ELEMENT note (to,from,heading,body)>
  <!ELEMENT to      (#PCDATA)>
  <!ELEMENT from    (#PCDATA)>
  <!ELEMENT heading (#PCDATA)>
  <!ELEMENT body    (#PCDATA)>
]> 

XML Schema

W3C 支援一種基於 XML 的 DTD 代替者,它名為 XML Schema:

<xs:element name="note">

<xs:complexType>
  <xs:sequence>
    <xs:element name="to"      type="xs:string"/>
    <xs:element name="from"    type="xs:string"/>
    <xs:element name="heading" type="xs:string"/>
    <xs:element name="body"    type="xs:string"/>
  </xs:sequence>
</xs:complexType>

</xs:element> 

XML名稱空間

名稱空間的主要目的是解決元素命名衝突的問題。以下兩份XML配置檔案有命名衝突的問題:

<table>
   <tr>
   <td>Apples</td>
   <td>Bananas</td>
   </tr>
</table>
<table>
   <name>African Coffee Table</name>
   <width>80</width>
   <length>120</length>
</table>

使用名稱空間來解決衝突後:

<table xmlns="http://www.w3.org/TR/html4/">
   <tr>
   <td>Apples</td>
   <td>Bananas</td>
   </tr>
</table>
<table xmlns="http://www.w3school.com.cn/furniture">
   <name>African Coffee Table</name>
   <width>80</width>
   <length>120</length>
</table>

名稱空間xmlns屬性值本身並沒有多大含義,只是為了區分名稱空間的不同,但實際上xmlns會被開發者用來標識某些資源。

XML CDATA

所有 XML 文件中的文字均會被解析器解析。

只有 CDATA 區段(CDATA section)中的文字會被解析器忽略。

PCDATA

PCDATA 指的是被解析的字元資料(Parsed Character Data)。
XML 解析器通常會解析 XML 文件中所有的文字。
當某個 XML 元素被解析時,其標籤之間的文字也會被解析:

<message>此文字也會被解析</message>

解析器之所以這麼做是因為 XML 元素可包含其他元素,就像這個例子中,其中的 <name> 元素包含著另外的兩個元素(first 和 last):

<name><first>Bill</first><last>Gates</last></name>

而解析器會把它分解為像這樣的子元素:

<name>
    <first>Bill</first>
    <last>Gates</last>
</name>

CDATA

術語 CDATA 指的是不應由 XML 解析器進行解析的文字資料(Unparsed Character Data)。

在 XML 元素中,”<” 和 “&” 是非法的。

“<” 會產生錯誤,因為解析器會把該字元解釋為新元素的開始。

“&” 也會產生錯誤,因為解析器會把該字元解釋為字元實體的開始。

某些文字,比如 JavaScript 程式碼,包含大量 “<” 或 “&” 字元。為了避免錯誤,可以將指令碼程式碼定義為 CDATA。

CDATA 部分中的所有內容都會被解析器忽略。

CDATA 部分由 “<![CDATA[“ 開始,由 “]]>” 結束:

<script>
<![CDATA[
function matchwo(a,b)
{
if (a < b && a < 0) then
  {
  return 1;
  }
else
  {
  return 0;
  }
}
]]>
</script>

在上面的例子中,解析器會忽略 CDATA 部分中的所有內容。

關於 CDATA 部分的註釋:

CDATA 部分不能包含字串 “]]>”。也不允許巢狀的 CDATA 部分。

標記 CDATA 部分結尾的 “]]>” 不能包含空格或折行。

本文參考W3School XML系列教程

相關文章