合理選擇資料探勘工具(轉)

gugu99發表於2007-08-13
合理選擇資料探勘工具(轉)[@more@]

  摘 要:資料探勘作為一項從海量資料中提取知識的資訊科技引起了國內外學術界和產業界的廣泛關注,它在商業方面的成功應用使得軟體開發商不斷開發新的資料探勘工具,改進現有的資料探勘工具,一時之間資料探勘工具可謂琳琅滿目,於是出現瞭如何合理選擇挖掘工具的問題。鑑於此,本文提出並討論了五點關於合理選擇資料探勘工具的技巧。

  關鍵詞:資料探勘;資料探勘工具;資料倉儲

  隨著資料庫和計算機網路的廣泛應用,加上先進的資料自動生成和採集工具的使用,人們擁有的資料量急劇增大。然而資料的極速增長與資料分析方法的改進並不成正比,一方面人們希望在已有的大量資料的基礎上進行科學研究、商業決策、企業管理,另一方面傳統的資料分析工具很難令人滿意的對資料進行深層次的處理,這樣二者之間的矛盾日益突出,正是在這種狀況下,資料探勘應運而生。資料探勘作為一項從海量資料中提取知識的資訊科技是一個"以發現為驅動"的過程,已經引起了學術界和產業界的極大重視。特別是從1989年8月在美國底特律召開的第11屆國際人工智慧聯合會議上首次出現資料庫中的知識發現概念以來,資料探勘在國際國內都受到了前所未有的重視,目前資料探勘廣泛應用於各個領域,如地理學、地質學、生物醫學等等,總之資料探勘的出現使資料庫技術進入了一個更高階的階段,不僅能對過去的資料進行查詢和遍歷,還能夠找出以往資料間潛在的聯絡,促進資訊的傳播。

  資料探勘技術概述

  1、資料探勘的定義

  資料探勘是一個從資料中提取模式的過程,是一個受多個學科影響的交叉領域,包括資料庫系統、統計學、機器學習、視覺化和資訊科學等;資料探勘反覆使用多種資料探勘演算法從觀測資料中確定模式或合理模型,是一種決策支援過程。透過預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。由於傳統的事物型工具(如查詢工具、報表工具)無法回答事先未定義的綜合性問題或跨部門/機構的問題,因此其使用者必須清楚地瞭解問題的目的。資料探勘就可以回答事先未加定義的綜合性問題或跨部門/機構的問題,挖掘潛在的模式並預測未來的趨勢,使用者不必提出確切的問題,而且模糊問題更有利於發現未知的事實。

  2、資料探勘的主要方法和途徑

  資料探勘有很多種分類方法,如按發現的知識種類,挖掘的資料庫型別,挖掘方法,挖掘途徑,所採用的技術等等。下面只討論四個應用比較廣泛的方法:

  ·關聯規則(Association Rule)

  在資料探勘領域中,關聯規則應用最為廣泛,是重要的研究方向。表示資料庫中一組物件之間某種關聯關係的規則,一般來講,可以用多個引數來描述一個關聯規則的屬性,常用的有:可信度,支援度,興趣度,期望可信度,作用度。

  ·離群資料(Outlier)

  離群資料就是明顯偏離其他資料、不滿足資料的一般模式或行為、與存在的其他資料不一致的資料。資料探勘的大部分研究忽視了離群資料的存在和意義,現有的方法往往研究如何減少離群資料對正常資料的影響,或僅僅把其當作噪音來對待。這些離群資料可能來源於計算機錄入錯誤、人為錯誤等,也可能就是資料的真實反映。

  ·基於案例的推理(case-based reasoning, CBR)

  基於案例的推理來源於人類的認知心理活動,它屬於類比推理方法。其基本思想是基於人們在問題求解中習慣於過去處理類似問題的經驗和獲取的知識,在針對新舊情況的差異作相應的調整,從而得到新問題的解並形成新的案例。CBR方法的應用越來越受到人們的重視,在許多領域都有較好的推廣前景,例如,在氣象、環保、地震、農業、醫療、商業、CAD等領域;CBR也可用在計算機軟硬體的生產中,如軟體及硬體的故障檢測;CBR方法尤其在不易總結出專家知識的領域中,應用越來越普遍,也越來越深入。

  ·支援向量機(Support Vector Machine,SVM)

  支援向量機是近幾年發展起來的新型通用的知識發現方法,在分類方面具有良好的效能。SVM是建立在計算學習理論的結構風險最小化原則之上,主要思想是針對兩類分類問題在高位空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率。

  資料探勘工具

  伴隨越來越多的軟體供應商加入資料探勘這一行列,使得現有的挖掘工具的效能得到進一步的增強,使用更加便捷,也使得其價格門檻迅速降低,為應用的普及帶來了可能。當然資料倉儲技術的發展同樣功不可沒。資料倉儲是將海量複雜的客戶行為資料集中起來建立的一個整合的、結構化的資料模型,是實施資料探勘的基礎,這裡不作為討論的重點。

  1、資料探勘工具分類

  一般來講,資料探勘工具根據其適用的範圍分為兩類:專用資料探勘工具和通用資料探勘工具。專用資料探勘工具是針對某個特定領域的問題提供解決方案,在涉及演算法的時候充分考慮了資料、需求的特殊性,並作了最佳化;而通用資料探勘工具不區分具體資料的含義,採用通用的挖掘演算法,處理常見的資料型別。

  2、資料探勘工具的選擇

  資料探勘是一個過程,只有將資料探勘工具提供的技術和實施經驗與企業的業務邏輯和需求緊密結合,並在實施的過程中不斷的磨合,才能取得成功,因此我們在選擇資料探勘工具的時候,要全面考慮多方面的因素,主要包括以下幾點:

  資料探勘的功能和方法

  即是否可以完成各種資料探勘的任務,如:關聯分析、分類分析、序列分析、迴歸分析、聚類分析、自動預測等。我們知道資料探勘的過程一般包括資料抽樣、資料描述和預處理、資料變換、模型的建立、模型評估和釋出等,因此一個好的資料探勘工具應該能夠為每個步驟提供相應的功能集。資料探勘工具還應該能夠方便的匯出挖掘的模型,從而在以後的應用中使用該模型。

  ·資料探勘工具的可伸縮性

  也就是說解決複雜問題的能力,一個好的資料探勘工具應該可以處理儘可能大的資料量,可以處理儘可能多的資料型別,可以儘可能高的提高處理的效率,儘可能使處理的結果有效。如果在資料量和挖掘維數增加的情況下,挖掘的時間呈線性增長,那麼可以認為該挖掘工具的伸縮性較好。

  ·操作的簡易性

  一個好的資料探勘工具應該為使用者提供友好的視覺化操作介面和圖形化報表工具,在進行資料探勘的過程中應該儘可能提高自動化執行程度。總之是面向廣大使用者的而不是熟練的專業人員。

  ·資料探勘工具的視覺化

  這包括源資料的視覺化、挖掘模型的視覺化、挖掘過程的視覺化、挖掘結果的視覺化,視覺化的程度、質量和互動的靈活性都將嚴重影響到資料探勘系統的使用和解釋能力。畢竟人們接受外界資訊的80%是透過視覺獲得的,自然資料探勘工具的視覺化能力就相當重要。

  ·資料探勘工具的開放性

  即資料探勘工具與資料庫的結合能力。好的資料探勘工具應該可以連線儘可能多的資料庫管理系統和其他的資料資源,應儘可能的與其他工具進行整合;儘管資料探勘並不要求一定要在資料庫或資料倉儲之上進行,但資料探勘的資料採集、資料清洗、資料變換等等將耗費巨大的時間和資源,因此資料探勘工具必須要與資料庫緊密結合,減少資料轉換的時間,充分利用整個的資料和資料倉儲的處理能力,在資料倉儲內直接進行資料探勘,而且開發模型,測試模型,部署模型都要充分利用資料倉儲的處理能力,另外,多個資料探勘專案可以同時進行。

  當然,上述的只是一些通用的參考指標,具體選擇挖掘工具時還需要從實際情況出發具體分析。

  資料探勘工具的現狀

  比較著名的有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它們都能夠提供常規的挖掘過程和挖掘模式。

  1、Intelligent Miner

  由美國IBM公司開發的資料探勘軟體Intelligent Miner是一種分別面向資料庫和文字資訊進行資料探勘的軟體系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在資料庫、資料倉儲和資料中心中的隱含資訊,幫助使用者利用傳統資料庫或普通檔案中的結構化資料進行資料探勘。它已經成功應用於市場分析、詐騙行為監測及客戶聯絡管理等;Intelligent Miner for Text允許企業從文字資訊進行資料探勘,文字資料來源可以是文字檔案、Web頁面、電子郵件、Lotus Notes資料庫等等。

  2、Enterprise Miner

  這是一種在我國的企業中得到採用的資料探勘工具,比較典型的包括上海寶鋼配礦系統應用和鐵路部門在春運客運研究中的應用。SAS Enterprise Miner是一種通用的資料探勘工具,按照"抽樣--探索--轉換--建模--評估"的方法進行資料探勘。可以與SAS資料倉儲和OLAP整合,實現從提出資料、抓住資料到得到解答的"端到端"知識發現。

  3、SPSS Clementine

  SPSS Clementine是一個開放式資料探勘工具,曾兩次獲得英國政府SMART 創新獎,它不但支援整個資料探勘流程,從資料獲取、轉化、建模、評估到最終部署的全部過程,還支援資料探勘的行業標準--CRISP-DM。Clementine的視覺化資料探勘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是侷限於完成一些技術性工作(比如編寫程式碼)。提供了多種圖形化技術,有助理解資料間的關鍵性聯絡,指導使用者以最便捷的途徑找到問題的最終解決辦法。

  其它常用的資料探勘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的資料探勘軟體Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。

  結束語

  經過十多年的發展,資料探勘工具的效能獲得了顯著的改善,不論是自動化程度還是適用範圍都發生了巨大變化,價格的門檻迅速降低,對於推進資料探勘在企業和電子商務中的應用具有特殊的意義。但是還應該看到,現在的資料探勘工具還存在許多的不足,1999年的調查顯示多數的資料探勘工具只使用了有限的幾種技術,且集中在比較簡單的資料探勘技術種類上。

  所以我們呼籲每個企業都必須結合自己的實際情況,充分考慮本企業在資料探勘領域的實施經驗,避免踏進僅僅是"選擇工具"的陷阱,從而獲得一個完善的資料探勘解決方案,真正把資料探勘融入到企業的經營決策中。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10748419/viewspace-954238/,如需轉載,請註明出處,否則將追究法律責任。

相關文章