資料探勘技術簡介(轉)

gugu99發表於2007-08-13
資料探勘技術簡介(轉)[@more@]

  摘要:資料探勘是目前一種新的重要的研究領域。本文介紹了資料探勘的概念、目的、常用方法、資料探勘過程、資料探勘軟體的評價方法。對資料探勘領域面臨的問題做了介紹和展望。

  關鍵詞:資料探勘 資料集合

  1. 引言

  資料探勘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。隨著資訊科技的高速發展,人們積累的資料量急劇增長,動輒以TB計,如何從海量的資料中提取有用的知識成為當務之急。資料探勘就是為順應這種需要應運而生髮展起來的資料處理技術。是知識發現(Knowledge Discovery in Database)的關鍵步驟。

  2. 資料探勘的任務

  資料探勘的任務主要是關聯分析、聚類分析、分類、預測、時序模式和偏差分析等。

  ⑴關聯分析(association analysis)

  關聯規則挖掘是由Rakesh Apwal等人首先提出的。兩個或兩個以上變數的取值之間存在某種規律性,就稱為關聯。資料關聯是資料庫中存在的一類重要的、可被發現的知識。關聯分為簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。一般用支援度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等引數,使得所挖掘的規則更符合需求。

  ⑵聚類分析(clustering)

  聚類是把資料按照相似性歸納成若干類別,同一類中的資料彼此相似,不同類中的資料相異。聚類分析可以建立宏觀的概念,發現資料的分佈模式,以及可能的資料屬性之間的相互關係。

  ⑶分類(classification)

  分類就是找出一個類別的概念描述,它代表了這類資料的整體資訊,即該類的內涵描述,並用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練資料集透過一定的演算法而求得分類規則。分類可被用於規則描述和預測。

  ⑷預測(predication)

  預測是利用歷史資料找出變化規律,建立模型,並由此模型對未來資料的種類及特徵進行預測。預測關心的是精度和不確定性,通常用預測方差來度量。

  ⑸時序模式(time-series pattern)

  時序模式是指透過時間序列搜尋出的重複發生機率較高的模式。與迴歸一樣,它也是用己知的資料預測未來的值,但這些資料的區別是變數所處時間的不同。

  ⑹偏差分析(deviation)

  在偏差中包括很多有用的知識,資料庫中的資料存在很多異常情況,發現資料庫中資料存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。

  3.資料探勘物件

  根據資訊儲存格式,用於挖掘的物件有關聯式資料庫、物件導向資料庫、資料倉儲、文字資料來源、多媒體資料庫、空間資料庫、時態資料庫、異質資料庫以及Internet等。

  4.資料探勘流程

  ⑴定義問題:清晰地定義出業務問題,確定資料探勘的目的。

  ⑵資料準備:資料準備包括:選擇資料--在大型資料庫和資料倉儲目標中提取資料探勘的目標資料集;資料預處理--進行資料再加工,包括檢查資料的完整性及資料的一致性、去噪聲,填補丟失的域,刪除無效資料等。

  ⑶資料探勘:根據資料功能的型別和和資料的特點選擇相應的演算法,在淨化和轉換過的資料集上進行資料探勘。

  ⑷結果分析:對資料探勘的結果進行解釋和評價,轉換成為能夠最終被使用者理解的知識。

  ⑸知識的運用:將分析所得到的知識整合到業務資訊系統的組織結構中去。

  5.資料探勘的方法

  ⑴神經網路方法

  神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分佈儲存和高度容錯等特性非常適合解決資料探勘的問題,因此近年來越來越受到人們的關注。典型的神經網路模型主要分3大類:以感知機、BP反向傳播模型、函式型網路為代表的,用於分類、預測和模式識別的前饋式神經網路模型;以Hopfield的離散模型和連續模型為代表的,分別用於聯想記憶和最佳化計算的反饋式神經網路模型;以ART模型、Koholon模型為代表的,用於聚類的自組織對映方法。神經網路方法的缺點是"黑箱"性,人們難以理解網路的學習和決策過程。

  ⑵遺傳演算法

  遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜尋演算法,是一種仿生全域性最佳化方法。遺傳演算法具有的隱含並行性、易於和其它模型結合等性質使得它在資料探勘中被加以應用。

  Sunil已成功地開發了一個基於遺傳演算法的資料探勘工具,利用該工具對兩個飛機失事的真實資料庫進行了資料探勘實驗,結果表明遺傳演算法是進行資料探勘的有效方法之一[4]。遺傳演算法的應用還體現在與神經網路、粗集等技術的結合上。如利用遺傳演算法最佳化神經網路結構,在不增加錯誤率的前提下,刪除多餘的連線和隱層單元;用遺傳演算法和BP演算法結合訓練神經網路,然後從網路提取規則等。但遺傳演算法的演算法較複雜,收斂於區域性極小的較早收斂問題尚未解決。

  ⑶決策樹方法

  決策樹是一種常用於預測模型的演算法,它透過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊。它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。最有影響和最早的決策樹方法是由Quinlan提出的著名的基於資訊熵的ID3演算法。它的主要問題是:ID3是非遞增學習演算法;ID3決策樹是單變數決策樹,複雜概念的表達困難;同性間的相互關係強調不夠;抗噪性差。針對上述問題,出現了許多較好的改進演算法,如 Schlimmer和Fisher設計了ID4遞增式學習演算法;鐘鳴,陳文偉等提出了IBLE演算法等。

  ⑷粗集方法

  粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,易於操作。粗集處理的物件是類似二維關係表的資訊表。目前成熟的關聯式資料庫管理系統和新發展起來的資料倉儲管理系統,為粗集的資料探勘奠定了堅實的基礎。但粗集的數學基礎是集合論,難以直接處理連續的屬性。而現實資訊表中連續屬性是普遍存在的。因此連續屬性的離散化是制約粗集理論實用化的難點。現在國際上已經研製出來了一些基於粗集的工具應用軟體,如加拿大Regina大學開發的KDD-R;美國Kansas大學開發的LERS等。

  ⑸覆蓋正例排斥反例方法

  它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與欄位取值構成的選擇子相容則捨去,相反則保留。按此思想迴圈所有正例種子,將得到正例的規則(選擇子的合取式)。比較典型的演算法有Michalski的AQ11方法、洪家榮改進的AQ15方法以及他的AE5方法。

  ⑹統計分析方法

  在資料庫欄位項之間存在兩種關係:函式關係(能用函式公式表示的確定性關係)和相關關係(不能用函式公式表示,但仍是相關確定性關係),對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的資訊進行分析。可進行常用統計(求大量資料中的最大值、最小值、總和、平均值等)、迴歸分析(用迴歸方程來表示變數間的數量關係)、相關分析(用相關係數來度量變數間的相關程度)、差異分析(從樣本統計量的值得出差異來確定總體引數之間是否存在差異)等。

  ⑺模糊集方法

  即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。李德毅等人在傳統模糊理論和機率統計的基礎上,提出了定性定量不確定性轉換模型--雲模型,並形成了雲理論。

  6.評價資料探勘軟體需要考慮的問題

  越來越多的軟體供應商加入了資料探勘這一領域的競爭。使用者如何正確評價一個商業軟體,選擇合適的軟體成為資料探勘成功應用的關鍵。

  評價一個資料探勘軟體主要應從以下四個主要方面:

  ⑴計算效能:如該軟體能否在不同的商業平臺執行;軟體的架構;能否連線不同的資料來源;操作大資料集時,效能變化是線性的還是指數的;算的效率;是否基於元件結構易於擴充套件;執行的穩定性等;

  ⑵功能性:如軟體是否提供足夠多樣的演算法;能否避免挖掘過程黑箱化;軟體提供的演算法能否應用於多種型別的資料;使用者能否調整演算法和演算法的引數;軟體能否從資料集隨機抽取資料建立預挖掘模型;能否以不同的形式表現挖掘結果等;

  ⑶可用性:如使用者介面是否友好;軟體是否易學易用;軟體面對的使用者:初學者,高階使用者還是專家?錯誤報告對使用者除錯是否有很大幫助;軟體應用的領域:是專攻某一專業領域還是適用多個領域等;

  ⑷輔助功能:如是否允許使用者更改資料集中的錯誤值或進行資料清洗;是否允許值的全域性替代;能否將連續資料離散化;能否根據使用者制定的規則從資料集中提取子集;能否將資料中的空值用某一適當均值或使用者指定的值代替;能否將一次分析的結果反饋到另一次分析中,等等。

  7.結束語

  資料探勘技術是一個年輕且充滿希望的研究領域,商業利益的強大驅動力將會不停地促進它的發展.每年都有新的資料探勘方法和模型問世,人們對它的研究正日益廣泛和深入。儘管如此,資料探勘技術仍然面臨著許多問題和挑戰:如資料探勘方法的效率亟待提高,尤其是超大規模資料集中資料探勘的效率;開發適應多資料型別、容噪的挖掘方法,以解決異質資料集的資料探勘問題;動態資料和知識的資料探勘;網路與分散式環境下的資料探勘等;另外,近年來多媒體資料庫發展很快,面向多媒體資料庫的挖掘技術和軟體今後將成為研究開發的熱點。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10748419/viewspace-954241/,如需轉載,請註明出處,否則將追究法律責任。

相關文章