XML入門精解之結構與語法(轉)
現在我們暫且使用“記事本”來建立我們的XML檔案吧。先看一個XML檔案:
例1
〈?xml version="1.0" encoding="gb2312" ?〉 〈參考資料〉 〈書籍〉 〈名稱〉XML入門精解〈/名稱〉 〈作者〉張三〈/作者〉 〈價格 貨幣單位="人民幣"〉20.00〈/價格〉 〈/書籍〉 〈書籍〉 〈名稱〉XML語法〈/名稱〉 〈!--此書即將出版--〉 〈作者〉李四〈/作者〉 〈價格 貨幣單位="人民幣"〉18.00〈/價格〉 〈/書籍〉 〈/參考資料〉
這是一個典型的XML檔案,編輯好後儲存為一個以.xml為字尾的檔案。我們可以將此檔案分為檔案序言(Prolog)和檔案主體兩個大的部分。在此檔案中的第一行即是檔案序言。該行是一個XML檔案必須要宣告的東西,而且也必須位於XML檔案的第一行,它主要是告訴XML解析器如何工作。其中,version是標明此XML檔案所用的標準的版本號,必須要有;encoding指明瞭此XML檔案中所使用的字元型別,可以省略,在你省略此宣告的時候,後面的字元碼必須是Unicode字元碼(建議不要省略)。因為我們在這個例子中使用的是GB2312字元碼,所以encoding這個宣告也不能省略。在檔案序言部分還有一些宣告語句,我們在後面給予介紹。
檔案的其餘部分都是屬於檔案主體,XML檔案的內容資訊存放在此。我們可以看到,檔案主體是由開始的〈參考資料〉和結束的〈/參考資料〉控制標記組成,這個稱為XML檔案的“根元素”;〈書籍〉是作為直屬於根元素下的“子元素”;在〈書籍〉下又有〈名稱〉、〈作者〉、〈價格〉這些子元素。貨幣單位是〈價格〉元素中的一個“屬性”,“人民幣”則是“屬性值”。
〈!--此書即將出版--〉這一句同HTML一樣,是註釋,在XML檔案裡,註釋部分是放在“〈!--”與“--〉”標記之間的部分。
大家可以看到,XML檔案是相當簡單的。同HTML一樣,XML檔案也是由一系列的標記組成,不過,XML檔案中的標記是我們自定義的標記,具有明確的含義,我們可以對標記中的內容的含義作出說明。
對XML檔案有了初步的印象之後,我們就來詳細地談一談XML檔案的語法。在講語法之前,我們必須要了解一個重要的概念,就是XML解析器(XML Parse)。
1.XML解析器
解析器的主要功能就是檢查XML檔案是否有結構上的錯誤,剝離XML檔案中的標記,讀出正確的內容,以交給下一步的應用程式處理。XML是一種用來結構化檔案資訊的標記語言,XML規範中對於如何標記檔案的結構性有一個詳細的法則,解析器就是根據這些法則寫出來的軟體(多用Java寫成)。同HTML一樣,在瀏覽器中,必須有HTML的解析器,這樣瀏覽器才能夠“讀懂”各種用HTML標記所組成的網頁,將它們顯示在我們面前。如果有瀏覽器的HTML解析器讀不懂的標記,將會返回給我們錯誤資訊。
由於現在的HTML標記實際上相當混亂,存在大量不規範的標記(有的網頁用IE能正常顯示,而用Netscape Navigator則不行),所以從一開始,XML的設計者就嚴格規定了XML的語法和結構,我們編寫的XML檔案必須遵循這些規定,否則XML解析器將毫不留情地給你顯示錯誤資訊。
有兩種XML檔案,一種是Well-Formed XML檔案,一種是Validating XML檔案。
如果一個XML檔案滿足XML規範中的某些相關法則,且沒有使用DTD(檔案格式定義——後詳述)時,可稱這份檔案是Well-Formed。而如果一個XML檔案是Well-Formed,且正確地使用了DTD,DTD中的語法又是正確的,那麼這個檔案就是Validating。對應兩種XML檔案,有兩種XML解析器,一種是Well-Formed 解析器,一種是Validating解析器。IE 5中就內含Validating解析器,Validating解析器也可用來解析Well-Formed XML檔案。
檢查它是否滿足了Well-Formed的條件。我們可以將剛才編輯的第一個XML 檔案用IE 5以上版本的瀏覽器開啟。
大家可能要問為什麼在瀏覽器中的顯示和我的原始檔一樣?沒錯,因為對於XML檔案,我們黿齬匭乃 的內容,而它的顯示形式是交給CSS或XSL來完成的。這裡,我們並沒有給這個XML檔案定義它的CSS或XSL檔案,所以它按照原來的形式來顯示。實際上,對於電子資料交換,僅僅需要一個XML檔案即可,如果要將它以某種形式顯示出來,我們就必須編輯CSS或XSL檔案(這個問題會在以後討論)。
2.Well-Formed的XML檔案
我們知道,XML必須是Well-Formed的,才能夠被解析器正確地解析出來,顯示在瀏覽器中。那麼什麼是Well-Formed的XML檔案呢?主要有下面幾個準則,我們在建立XML檔案的時候,必須滿足它們。
首先,XML檔案的第一行必須是宣告該檔案是XML檔案以及它所使用的XML規範版本。在檔案的前面不能夠有其它元素或者註釋。
第二,在XML檔案中有且只能夠有一個根元素。我們的第一個例子中,〈參考資料〉... 〈/參考資料〉就是此XML檔案的根元素。
第三,在XML檔案中的標記必須正確地關閉,也就是說,在XML檔案中,控制標記必 須有與之對應的結束標記。如:〈名稱〉標記必須有對應的〈/名稱〉結束標記,不像HTML,某些標記的結束標記可有可無。如果在XML檔案中遇到自成一個單元的標記,就是類似於HTML 中的〈img src=.....〉的這些沒有結束標記的時候,XML把它稱為“空元素”,必須用這樣的寫法:〈空元素名/〉,如果元素中含有屬性時寫法則為:〈空元素名 屬性名=“屬性值”/〉。
第四,標記之間不得交叉。在以前的HTML檔案中,可以這樣寫:
〈B〉〈H〉XXXXXXX〈/B〉〈/H〉,〈B〉和〈H〉
標記之間有相互重疊的區域,而在XML中,是嚴格禁止這樣標記交錯的寫法,標記必須以規則性的次序來出現。
第五,屬性值必須要用“ ”號括起來。如第一個例子中的“1.0”、“gb2312”、“人民幣”。都是用“ ”號括起來了的,不能漏掉。
第六,控制標記、指令和屬性名稱等英文要區分大小寫。與HTML不同的是,在HTML中, 類似〈B〉和〈b〉的標記含義是一樣的,而在XML中,類似〈name〉、〈NAME〉或〈Name〉這樣的標記是不同的。
第七,我們知道,在HTML檔案中,如果我們要瀏覽器原封不動地將我們所輸入的東西顯示出來,可以將這些東西放到〈pre〉〈/pre〉或者〈xmp〉〈/xmp〉標記中間。這對於我們建立HTML教學的網頁是必不可少的,因為網頁中要顯示HTML的原始碼。而在XML中,要實現這樣的功能,就必須使用CDATA標記。在CDATA標記中的資訊被解析器原封不動地傳給應用程式,並且不解析該段資訊中的任何控制標記。CDATA區域是由:“〈![CDATA[”為開始標記,以“>〉”為結束標記。例如:例2中的原始碼,除了“〈![CDATA[”和“>〉”符號,其餘的內容解析器將原封不動地交給下游的應用程式,即使CDATA區域中的開始和結尾的空白以及換行字元等,都同樣會被轉交(注意CDATA是大寫的字元)。
例2
〈![CDATA[飛翔的xml〉〉〉〉〉,:-) oooo〈〈〈〈〈〈〈 >〉
第八,XML處理空白字元和HTML不一樣。HTML標準規定,不管有多少個空白,都當作一個空白來處理;而在XML中規定,所有標記以外的空白,解析器都要忠實地交給下游的應用程式處理。這樣,我們有時必須摒棄編寫HTML檔案時的縮排習慣,因為縮排的空格,解析器也要處理。如:
〈作者〉張三〈/作者〉 和 〈作者〉 張三 〈/作者〉
上述內容對於解析器來說是不同的(後者在〈作者〉〈/作者〉標記之內除了張三這個字元以外,還包括兩個換行記號以及“張三”前的文字縮排符號)。所以解析器在去掉標記後將資訊傳給應用程式將有不同的處理結果。
如果我們想明確地告訴XML程式,標記中的空白有明確的含義,不要隨便去掉(如在一些詩中,空格有它具體的意義),則可在標記中加入一個XML內建的屬性——xml:space 。如(注意屬性名稱和值的大小寫):
〈詩歌 xml:space="preserver"〉 祖國啊! 祖國! 我的祖國! 〈/詩歌〉
另外,在XML檔案中,如果要用到表1的特殊字元,必須用相應符號代替。
表1
特殊字元 替代符號 && & < ⁢ > > " " ' '
在此做個小結:符合上述規定的XML檔案就是Well-Formed的XML檔案。這是編寫XML檔案的最基本要求。可以看到XML檔案的語法規定比HTML要嚴格多了。由於有這樣的嚴格規定,軟體工程師編寫XML的解析器就容易多了,不像編寫HTML語言的解析器,必須費盡心思去適應不同的網頁寫法,提高自己瀏覽器的適應能力。實際上,這對於我們初學者來說,也是一件好事。該怎樣就怎樣,不必像原來那樣去疑惑各種HTML的寫法。
我們看到,在XML檔案中,用的大多都是自定義的標記。但是大家考慮一下,如果兩個同行業的公司A和B要用XML檔案相互交換資料,A公司用〈價格〉標記來表示他們產品的價格資訊,而B公司可能用〈售價〉來表示價格資訊。如果一個XML應用程式來讀取他們各自的XML檔案中的資訊時,如果它只知道〈價格〉標記裡表示的是價格資訊,那麼B公司的價格資訊就讀不出來,必將產生錯誤。顯然,對於想利用XML檔案來交換資訊的實體來說,他們之間必須有一個約定——即編寫XML檔案可以用哪些標記,母元素中能夠包括哪些子元素,各個元素出現的順序,元素中的屬性怎樣定義等。這樣他們在用XML交換資料時才能夠暢通無阻。這種約定稱為DTD(Document Type Definition,文件格式定義)。可以把DTD看作編寫XML檔案的模板。對於同行業之間的XML資料交換,有一個固定的DTD將會方便很多。比如說,如果網上的各大電子商場的XML網頁都遵循同一個DTD時,那麼我們就可以輕鬆地依據這個DTD 編寫一個應用程式,去網上將我們感興趣的東西自動抓回來。事實上已經有了好幾個定義好的DTD,如前面所說的MathML、SMIL等。
如果一個XML檔案是Well-Formed的,並且它是正確的依據某個DTD建立的,那麼,這個XML檔案就被稱為:Validating XML檔案。相應的解析器就稱為:Validating Parser。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752019/viewspace-950379/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- XML入門精解之結構與語法 (轉)XML
- XML入門指南(3)XML語法(轉)XML
- [轉]XML檔案結構和基本語法XML
- XML輕鬆學習手冊(5)XML語法之四(轉)XML
- XML入門指南(4)XML元素(轉)XML
- python 語法總結:Python語法快速入門Python
- XML入門指南(18)XML行為(轉)XML
- XML入門指南(15)XML編碼(轉)XML
- XML入門指南(6)XML確認(轉)XML
- XML入門指南(1)XML簡介(轉)XML
- NLP入門之N元語法模型模型
- XML入門指南(17)XML HTTP 請求(轉)XMLHTTP
- XML入門指南(7)XML瀏覽器(轉)XML瀏覽器
- XML-RPC入門 (轉)XMLRPC
- Markdown語法入門
- thymeleaf語法入門
- Markdown 語法入門
- LaTeX語法入門
- XML語法XML
- 轉 關於shell中if 語法結構的廣泛誤解
- XML入門指南(19)XML相關技術(轉)XML
- 1.入門與順序結構
- 前端入門9-JavaScript語法之運算子前端JavaScript
- 前端入門11-JavaScript語法之陣列前端JavaScript陣列
- Cookie 語法結構Cookie
- XML入門XML
- Go語言入門系列(五)之指標和結構體的使用Go指標結構體
- go 語法快速入門Go
- yaml語法快速入門YAML
- babel 修改抽象語法樹——入門與實踐Babel抽象語法樹
- XML入門指南(8)使用CSS來顯示XML(轉)XMLCSS
- XML卷之實戰錦囊(5)結構樹圖(轉)XML
- C#快速入門教程(12)—— if語句結構C#
- lua學習之入門(二)----基礎語法1
- VS2005入門之XMLXML
- XML入門常見問題(3)(轉)XML
- XML入門常見問題(2)(轉)XML
- XML入門常見問題(1)(轉)XML