XML與面向Web的資料探勘技術(轉)

gugu99發表於2007-08-13
XML與面向Web的資料探勘技術(轉)[@more@]

  面向Web的資料探勘

  Web上有海量的資料資訊,怎樣對這些資料進行復雜的應用成了現今資料庫技術的研究熱點。資料探勘就是從大量的資料中發現隱含的規律性的內容,解決資料的應用質量問題。充分利用有用的資料,廢棄虛偽無用的資料,是資料探勘技術的最重要的應用。相對於Web的資料而言,傳統的資料庫中的資料結構性很強,即其中的資料為完全結構化的資料,而Web上的資料最大特點就是半結構化。所謂半結構化是相對於完全結構化的傳統資料庫的資料而言。顯然,面向Web的資料探勘比面向單個資料倉儲的資料探勘要複雜得多。

  1.異構資料庫環境

  從資料庫研究的角度出發,Web網站上的資訊也可以看作一個資料庫,一個更大、更復雜的資料庫。Web上的每一個站點就是一個資料來源,每個資料來源都是異構的,因而每一站點之間的資訊和組織都不一樣,這就構成了一個巨大的異構資料庫環境。如果想要利用這些資料進行資料探勘,首先,必須要研究站點之間異構資料的整合問題,只有將這些站點的資料都整合起來,提供給使用者一個統一的檢視,才有可能從巨大的資料資源中獲取所需的東西。其次,還要解決Web上的資料查詢問題,因為如果所需的資料不能很有效地得到,對這些資料進行分析、整合、處理就無從談起。

  2.半結構化的資料結構

  Web上的資料與傳統的資料庫中的資料不同,傳統的資料庫都有一定的資料模型,可以根據模型來具體描述特定的資料。而Web上的資料非常複雜,沒有特定的模型描述,每一站點的資料都各自獨立設計,並且資料本身具有自述性和動態可變性。因而,Web上的資料具有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的資料,這也被稱之為半結構化資料。半結構化是Web上資料的最大特點。

  3.解決半結構化的資料來源問題

  Web資料探勘技術首要解決半結構化資料來源模型和半結構化資料模型的查詢與整合問題。解決Web上的異構資料的整合與查詢問題,就必須要有一個模型來清晰地描述Web上的資料。針對Web上的資料半結構化的特點,尋找一個半結構化的資料模型是解決問題的關鍵所在。除了要定義一個半結構化資料模型外,還需要一種半結構化模型抽取技術,即自動地從現有資料中抽取半結構化模型的技術。面向Web的資料探勘必須以半結構化模型和半結構化資料模型抽取技術為前提。

  XML與Web資料探勘技術

  以XML為基礎的新一代WWW環境是直接面對Web資料的,不僅可以很好地相容原有的Web應用,而且可以更好地實現Web中的資訊共享與交換。XML可看作一種半結構化的資料模型,可以很容易地將XML的文件描述與關聯式資料庫中的屬性一對應起來,實施精確地查詢與模型抽取。

  1.XML的產生與發展

  XML(eXtensibleMarkupLanguage)是由全球資訊網協會(W3C)設計,特別為Web應用服務的SGML(StandardGeneralMarkupLanguage)的一個重要分支。總的來說,XML是一種中介標示語言(Meta-markupLanguage),可提供描述結構化資料的格式,詳細來說,XML是一種類似於HTML,被設計用來描述資料的語言。XML提供了一種獨立的執行程式的方法來共享資料,它是用來自動描述資訊的一種新的標準語言,它能使計算機通訊把Internet的功能由資訊傳遞擴大到人類其他多種多樣的活動中去。XML由若干規則組成,這些規則可用於建立標記語言,並能用一種被稱作分析程式的簡明程式處理所有新建立的標記語言,正如HTML為第一個計算機使用者閱讀Internet文件提供一種顯示方式一樣,XML也建立了一種任何人都能讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發展速度快而接入速度慢的問題,以及可利用的資訊多,但難以找到自己需要的那部分資訊的問題。XML能增加結構和語義資訊,可使計算機和伺服器即時處理多種形式的資訊。因此,運用XML的擴充套件功能不僅能從Web伺服器下載大量的資訊,還能大大減少網路業務量。

  XML中的標誌(TAG)是沒有預先定義的,使用者必須要自定義需要的標誌,XML是能夠進行自解釋(SelfDescribing)的語言。XML使用DTD(DocumentTypeDefinition文件型別定義)來顯示這些資料,XSL(eXtensibleStyleSheetLanguage)是一種來描述這些文件如何顯示的機制,它是XML的樣式表描述語言。XSL的歷史比HTML用的CSS(層疊式樣式表CascadingStyleSheets)還要悠久,XSL包括兩部分:一個用來轉換XML文件的方法;一個用來格式化XML文件的方法。XLL(eXtensibleLinkLanguage)是XML連線語言,它提供XML中的連線,與HTML中的類似,但功能更強大。使用XLL,可以多方向連線,且連線可以存在於物件層級,而不僅僅是頁面層級。由於XML能夠標記更多的資訊,所以它就能使使用者很輕鬆地找到他們需要的資訊。利用XML,Web設計人員不僅能建立文字和圖形,而且還能構建文件型別定義的多層次、相互依存的系統、資料樹、後設資料、超連結結構和樣式表。

  2.XML的主要特點

  正是XML的特點決定了其卓越的效能表現。XML作為一種標記語言,有許多特點:

  (1)簡單。XML經過精心設計,整個規範簡單明瞭,它由若干規則組成,這些規則可用於建立標記語言,並能用一種常常稱作分析程式的簡明程式處理所有新建立的標記語言。XML能建立一種任何人都能讀出和寫入的世界語,這種建立世界語的功能叫做統一性功能。如XML建立的標記總是成對出現,以及依靠稱作統一程式碼的新的編碼標準。

  (2)開放。XML是SGML在市場上有許多成熟的軟體可用來幫助編寫、管理等,開放式標準XML的基礎是經過驗證的標準技術,並針對網路做最佳化。眾多業界頂尖公司,與W3C的工作群組並肩合作,協助確保互動作業性,支援各式系統和瀏覽器上的開發人員、作者和使用者,以及改進XML標準。XML直譯器可以使用程式設計的方法來載入一個XML的文件,當這個文件被載入以後,使用者就可以透過XML檔案物件模型來獲取和操縱整個文件的資訊,加快了網路執行速度。

  (3)高效且可擴充。支援複用文件片斷,使用者可以發明和使用自己的標籤,也可與他人共享,可延伸性大,在XML中,可以定義無限量的一組標註。XML提供了一個標示結構化資料的架構。一個XML元件可以宣告與其相關的資料為零售價、營業稅、書名、數量或其它任何資料元素。隨著世界範圍內的許多機構逐漸採用XML標準,將會有更多的相關功能出現:一旦鎖定資料,便可以使用任何方式透過電纜線傳遞,並在瀏覽器中呈現,或者轉交到其他應用程式做進一步的處理。XML提供了一個獨立的運用程式的方法來共享資料,使用DTD,不同的組中的人就能夠使用共同的DTD來交換資料。你的應用程式可以使用這個標準的DTD來驗證你接受到的資料是否有效,你也可以使用一個DTD來驗證你自己的資料。

  (4)國際化。標準國際化,且支援世界上大多數文字。這源於依靠它的統一程式碼的新的編碼標準,這種編碼標準支援世界上所有以主要語言編寫的混合文字。在HTML中,就大多數字處理而言,一個文件一般是用一種特殊語言寫成的,不管是英語,還是日語或阿拉伯語,如果使用者的軟體不能閱讀特殊語言的字元,那麼他就不能使用該文件。但是能閱讀XML語言的軟體就能順利處理這些不同語言字元的任意組合。因此,XML不僅能在不同的計算機系統之間交換資訊,而且能跨國界和超越不同文化疆界交換資訊。

  3.XML在Web資料探勘中的應用

  XML已經成為正式的規範,開發人員能夠用XML的格式標記和交換資料。XML在三層架構上為資料處理提供了很好的方法。使用可升級的三層模型,XML可以從存在的資料中產生出來,使用XML結構化的資料可以從商業規範和表現形式中分離出來。資料的整合、傳送、處理和顯示是下面過程中的每一個步驟:

  促進XML應用的是那些用標準的HTML無法完成的Web應用。這些應用從大的方面講可以被分成以下四類:需要Web客戶端在兩個或更多異質資料庫之間進行通訊的應用;試圖將大部分處理負載從Web伺服器轉到Web客戶端的應用;需要Web客戶端將同樣的資料以不同的瀏覽形式提供給不同的使用者的應用;需要智慧Web代理根據個人使用者的需要裁減資訊內容的應用。顯而易見,這些應用和Web的資料探勘技術有著重要的聯絡,基於Web的資料探勘必須依靠它們來實現。

  XML給基於Web的應用軟體賦予了強大的功能和靈活性,因此它給開發者和使用者帶來了許多好處。比如進行更有意義的搜尋,並且Web資料可被XML唯一地標識。沒有XML,搜尋軟體必須瞭解每個資料庫是如何構建的,但這實際上是不可能的,因為每個資料庫描述資料的格式幾乎都是不同的。由於不同來源資料的整合問題的存在,現在搜尋多樣的不相容的資料庫實際上是不可能的。XML能夠使不同來源的結構化的資料很容易地結合在一起。軟體代理商可以在中間層的伺服器上對從後端資料庫和其它應用處來的資料進行整合。然後,資料就能被髮送到客戶或其他伺服器做進一步的集合、處理和分發。XML的擴充套件性和靈活性允許它描述不同種類應用軟體中的資料,從描述蒐集的Web頁到資料記錄,從而透過多種應用得到資料。同時,由於基於XML的資料是自我描述的,資料不需要有內部描述就能被交換和處理。利用XML,使用者可以方便地進行本地計算和處理,XML格式的資料傳送給客戶後,客戶可以用應用軟體解析資料並對資料進行編輯和處理。使用者可以用不同的方法處理資料,而不僅僅是顯示它。XML文件物件模式(DOM)允許用指令碼或其他程式語言處理資料,資料計算不需要回到伺服器就能進行。XML可以被利用來分離使用者觀看資料的介面,使用簡單靈活開放的格式,可以給Web建立功能強大的應用軟體,而原來這些軟體只能建立在高階資料庫上。另外,資料發到桌面後,能夠用多種方式顯示。

  XML還可以透過以簡單開放擴充套件的方式描述結構化的資料,XML補充了HTML,被廣泛地用來描述使用者介面。HTML描述資料的外觀,而XML描述資料本身。由於資料顯示與內容分開,XML定義的資料允許指定不同的顯示方式,使資料更合理地表現出來。本地的資料能夠以客戶配置、使用者選擇或其他標準決定的方式動態地表現出來。CSS和XSL為資料的顯示提供了公佈的機制。透過XML,資料可以粒狀地更新。每當一部分資料變化後,不需要重發整個結構化的資料。變化的元素必須從伺服器傳送給客戶,變化的資料不需要重新整理整個使用者的介面就能夠顯示出來。但在目前,只要一條資料變化了,整一頁都必須重建。這嚴重限制了伺服器的升級效能。XML也允許加進其他資料,比如預測的溫度。加入的資訊能夠進入存在的頁面,不需要瀏覽器重新發一個新的頁面。XML應用於客戶需要與不同的資料來源進行互動時,資料可能來自不同的資料庫,它們都有各自不同的複雜格式。但客戶與這些資料庫間只透過一種標準語言進行互動,那就是XML。由於XML的自定義性及可擴充套件性,它足以表達各種型別的資料。客戶收到資料後可以進行處理,也可以在不同資料庫間進行傳遞。總之,在這類應用中,XML解決了資料的統一介面問題。但是,與其他的資料傳遞標準不同的是,XML並沒有定義資料檔案中資料出現的具體規範,而是在資料中附加TAG來表達資料的邏輯結構和含義。這使XML成為一種程式能自動理解的規範。

  XML應用於將大量運算負荷分佈在客戶端,即客戶可根據自己的需求選擇和製作不同的應用程式以處理資料,而伺服器只須發出同一個XML檔案。如按傳統的“Client/Server”工作方式,客戶向伺服器發出不同的請求,伺服器分別予以響應,這不僅加重伺服器本身的負荷,而且網路管理者還須事先調查各種不同的使用者需求以做出相應不同的程式,但假如使用者的需求繁雜而多變,則仍然將所有業務邏輯集中在伺服器端是不合適的,因為伺服器端的程式設計人員可能來不及滿足眾多的應用需求,也來不及跟上需求的變化,雙方都很被動。應用XML則將處理資料的主動權交給了客戶,伺服器所作的只是儘可能完善、準確地將資料封裝進XML檔案中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到資料的同時也理解資料的邏輯結構與含義,從而使廣泛、通用的分散式計算成為可能。

  XML還被應用於網路代理,以便對所取得的資訊進行編輯、增減以適應個人使用者的需要。有些客戶取得資料並不是為了直接使用而是為了根據需要組織自己的資料庫。比方說,教育部門要建立一個龐大的題庫,考試時將題庫中的題目取出若干組成試卷,再將試卷封裝進XML檔案,接下來在各個學校讓其透過一個過濾器,濾掉所有的答案,再傳送到各個考生面前,未經過濾的內容則可直接送到老師手中,當然考試過後還可以再傳送一份答案彙編。此外,XML檔案中還可以包含進諸如難度係數、往年錯誤率等其他相關資訊,這樣只需幾個小程式,同一個XML檔案便可變成多個檔案傳送到不同的使用者手中。

  結束語

  面向Web的資料探勘是一項複雜的技術,由於Web資料探勘比單個資料倉儲的挖掘要複雜的多,因而面向Web的資料探勘成了一個難以解決的問題。而XML的出現為解決Web資料探勘的難題帶來了機會。由於XML能夠使不同來源的結構化的資料很容易地結合在一起,因而使搜尋多樣的不相容的資料庫能夠成為可能,從而為解決Web資料探勘難題帶來了希望。XML的擴充套件性和靈活性允許XML描述不同種類應用軟體中的資料,從而能描述蒐集的Web頁中的資料記錄。同時,由於基於XML的資料是自我描述的,資料不需要有內部描述就能被交換和處理。作為表示結構化資料的一個工業標準,XML為組織、軟體開發者、Web站點和終端使用者提供了許多有利條件。相信在以後,隨著XML作為在Web上交換資料的一種標準方式的出現,面向Web的資料探勘將會變得非常輕鬆。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10748419/viewspace-954247/,如需轉載,請註明出處,否則將追究法律責任。

相關文章