Web資料探勘

maqianmaqian發表於2011-02-11


資料探勘(Data Mining,DM)是從大量資料中提取或“挖掘”知識,是從存放在資料庫、資料倉儲或其他資訊庫中的大量資料中挖掘有趣知識的過程。[1] 隨著網路的不斷髮展,因特網目前已成為一個巨大的、分佈廣泛的和全球性的資訊服務中心。從海量的網路資訊中尋找有用的知識,早已成為人們的迫切需求。各種類似Google、Baidu等的搜尋引擎也層出不窮,Web資料探勘的應用在現實中不斷體現。
Web資料探勘建立在對大量的網路資料進行分析的基礎上,採用相應的資料探勘演算法,在具體的應用模型上進行資料的提取、資料篩選、資料轉換、資料探勘和模式分析,最後做出歸納性的推理、預測客戶的個性化行為以及使用者習慣,從而幫助進行決策和管理,減少決策的風險。
Web資料探勘涉及多個領域,除資料探勘外,還涉及計算機網路、資料庫與資料倉儲、人工智慧、資訊檢索、視覺化、自然語言理解等技術。

2   Web資料探勘面臨的問題
Web的巨大、分佈廣泛和內容多樣使得目前的Web挖掘面臨著眾多問題和挑戰。首先,對有效的資料倉儲和資料探勘來說,Web上的資料過於龐大。而且,Web上的資料具有極強的動態性,不僅數量增長快而且更新十分迅速。但是面對如此大量的Web上的資訊,有調查卻表明:99%的Web資訊對於99%的使用者是無用的。這樣看來,面對網路上形形色色各式各樣的使用者群體,許多由Web搜尋引擎所檢索到的資料將會被淹沒。
另外,由於Web頁面缺乏同一的結構,其結構又比任何傳統文字文件都要複雜,所以要實現基於Web的資料探勘和資訊檢索在目前來說是非常具有挑戰性的。

 

3   Web資料探勘的分類
Web資料探勘是一項具有挑戰性的課題。它實現對Web存取模式,Web結構和規則,以及動態的Web內容的查詢。一般來說,Web資料探勘可分為四類:Web內容挖掘、Web結構挖掘、Web使用記錄挖掘和Web使用者性質挖掘。其中,Web內容挖掘、Web結構挖掘和Web使用記錄挖掘是Web1.0時代就已經有了的,而Web使用者性質挖掘則是伴隨著Web2.0的出現而出現的。

3.1 Web內容挖掘
Web內容挖掘主要包括文字挖掘和多媒體挖掘兩類,其物件包括文字、影象、音訊、視訊、多媒體和其他各種型別的資料。這些資料一般由非結構化的資料(如文字) 、半結構化的資料(如HTML 文件) 和結構化的資料(如表格) 構成。對非結構化文字進行的Web挖掘,稱為文字資料探勘或文字挖掘,是Web挖掘中比較重要的技術領域。Web挖掘中另一個比較重要的技術領域是Web多媒體資料探勘。
目前,關於Web內容挖掘的研究大體以Web文字內容挖掘為主。Web內容挖掘一般從資源查詢和資料庫兩個不同的方面進行研究。
從資源查詢的方面來看,Web內容挖掘的任務是從使用者的角度出發,怎樣提高資訊質量和幫助使用者過濾資訊。主要是對非結構化文件和半結構化文件的挖掘。非結構化文件主要指Web上的自由文字,如小說、新聞等。Web上的半結構化文件挖掘指在加入了HTML、超連結等附加結構的資訊上進行挖掘,其應用包括超連結文字的分類、聚類、發現文件之間的關係、提出半結構化文件中的模式和規則等。
從資料庫的觀點進行Web內容挖掘主要是試圖建立Web站點的資料模型並加以整合, 以支援複雜查詢,而不只是簡單的基於關鍵詞的搜尋。這要通過找到Web文件的模式、建立Web知識庫來實現。
對文字資料進行挖掘的文件分類和模型質量評價方法與傳統的資料探勘方法相類似,分類演算法主要應用樸素貝葉斯(Naive Bayes Classifier)。對模型的質量評價主要有分類的正確率(Classification Accuracy)、準確率( Precision)和資訊估值( Information Score)。 SAAS
Web多媒體資料探勘從多媒體資料庫中提取隱藏的知識、多媒體資料關聯、或者是其他沒有直接儲存在多媒體資料庫中的模式。多媒體資料探勘包括對影象、視訊和聲音的挖掘。多媒體挖掘首先進行特徵提取,然後再應用傳統的資料探勘方法進行進一步的資訊挖掘。對網頁中的多媒體資料進行特徵的提取,應充分利用HTML的標籤資訊。[3]
3.2 Web結構挖掘
由於有用的知識不僅包含在Web頁面的內容中,而且也包含在頁面的結構中。所以Web結構挖掘是從站點的組織結構和頁面結構中推匯出知識,對Web頁面間的結構進行挖掘,找出資料鏈的結構進行分類、聚類,從而發現頁面間的關係,進而改進搜尋引擎的效能。
Web結構挖掘的物件是Web本身的超連結,即對Web文件的結構進行挖掘。Web結構挖掘的基本思想是將Web看作一個有向圖,他的頂點是Web頁面,頁面間的超鏈就是圖的邊。然後利用圖論對Web的拓撲結構進行分析。常見的演算法有HITS ( Hypertext Induced Topic Search) 、PageRank、發現虛擬社群的演算法、發現相似頁面的演算法、發現地理位置的演算法和頁面分類演算法。Web結構挖掘的演算法一般可分為查詢相關演算法和查詢無關演算法兩類。查詢相關演算法需要為每一個查詢進行一次超鏈分析從而進行一次值的指派;而查詢獨立演算法則為每個文件僅進行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關演算法和查詢獨立演算法的代表。


3.3 Web使用記錄挖掘
Web使用記錄挖掘也叫Web日誌挖掘或Web訪問資訊挖掘。它是通過挖掘相關的Web日誌記錄,來發現使用者訪問Web頁面的模式,通過分析日誌記錄中的規律,可以識別使用者的喜好、滿意度,可以發現潛在使用者,增強站點的服務競爭力。
Web使用記錄資料除了伺服器的日誌記錄外, 還包括代理伺服器日誌、瀏覽器端日誌、註冊資訊、使用者會話資訊、交易資訊、Cookie中的資訊、使用者查詢、等一切使用者與站點之間可能的互動記錄。
Web使用記錄挖掘方法主要有以下兩種:
(1) 將網路伺服器的日誌檔案作為原始資料,應用特定的預處理方法進行處理後再進行挖掘;
(2) 將網路伺服器的日誌檔案轉換為圖表,然後再進行進一步的資料探勘。通常,在對原始資料進行預處理後就可以使用傳統的資料探勘方法進行挖掘。

3.4 Web使用者性質挖掘
Web使用者性質挖掘是伴隨著Web2.0的出現而出現的。基於RSS、Blog、SNS、Tag以及WiKi等網際網路軟體的廣泛應用,Web2.0幫助人們從Web1.0時代各大入口網站“填鴨”式的資訊轟炸,過渡到了“人人對話”,每個普通使用者既是資訊的獲取者,也是資訊的提供者。[4]面對Web2.0的誕生,Web資料探勘技術又面臨著新的挑戰。
如果說Web使用記錄挖掘是挖掘網站訪問者在各大網站上留下的痕跡,那麼Web使用者性質挖掘則是要去Web使用者的老巢探尋究竟。在Web2.0時代,網路徹底個人化了,它完全允許客戶用自己的方式、喜好和個性化的定製服務創造自己的網際網路,它一方面給予網際網路使用者最大的自由度,另一方面給予有心商家有待發掘的高含金量資訊資料。通過對Web使用者自建的RSS、Blog等Web2.0功能模組下客戶資訊的統計分析,能夠幫助運營商以較低成本獲得準確度較高的客戶興趣傾向、個性化需求以及新業務發展趨勢等資訊。有關Web2.0下的資料探勘正在進一步的研究中。

 

4   結束語
Web資料探勘是當今世界上的熱門研究領域,其研究具有廣闊的應用前景和巨大的現實意義。目前國內的Web資料探勘尚處於學習、跟蹤和探索階段。Web資料探勘有許多問題有待於進一步的研究和深化。Web2.0的出現給Web資料探勘提出了新的要求。基於Web2.0的資料探勘目前還處於起步階段,它必將成為Web資料探勘中很重要的一個研究領域。

相關文章