資料探勘概述 (轉)

worldblog發表於2007-12-07
資料探勘概述 (轉)[@more@]

隨著技術的不斷髮展及資料庫管理的廣泛應用,資料庫中的資料量急劇增大,在大量的資料背後隱藏著許
多重要的資訊,如果能把這些資訊從資料庫中抽取出來,將為公司創造很多潛在的利潤,而這種從海量資料庫中挖掘資訊
的技術,就稱之為資料探勘。

  資料探勘工具能夠對將來的趨勢和行為進行預測,從而很好地支援人們的決策,比如,經過對公司整個資料庫系統的
分析,資料探勘工具可以回答諸如“哪個客戶對我們公司的推銷活動最有可能作出反應,為什麼”等類似的問題。有
些資料探勘工具還能夠解決一些很消耗人工時間的傳統問題,因為它們能夠地瀏覽整個資料庫,找出一些專家們不易
察覺的極有用的資訊。

  下文將對資料探勘的基本技術作一個簡單的介紹。

資料探勘的基礎

  資料探勘技術是人們長期對資料庫技術進行研究和開發的結果。起初各種商業資料是儲存在的資料庫中的,然
後發展到可對資料庫進行查詢和訪問,進而發展到對資料庫的即時遍歷。資料探勘使資料庫技術進入了一個更高階的階
段,它不僅能對過去的資料進行查詢和遍歷,並且能夠找出過去資料之間的潛在聯絡,從而促進資訊的傳遞。現在資料挖
掘技術在商業應用中已經可以馬上投入使用,因為對這種技術進行支援的三種基礎技術已經發展成熟,他們是:

  海量資料蒐集
  強大的多計算機
  資料探勘演算法

  商業資料庫現在正在以一個空前的速度增長,並且資料倉儲正在廣泛地應用於各種行業;對計算機越來越高
的要求,也可以用現在已經成熟的並行多處理機的技術來滿足;另外資料探勘演算法經過了這10多年的發展也已經成為一種
成熟,穩定,且易於理解和操作的技術。

  從商業資料到商業資訊的進化過程中,每一步前進都是建立在上一步的基礎上的。見下表。表中我們可以看到,第四
步進化是革命性的,因為從的角度來看,這一階段的資料庫技術已經可以快速地回答商業上的很多問題了。

進化階段 商業問題 支援技術 產品廠家 產品特點
資料蒐集
(60年代) “過去五年中我的總收入是多少?” 計算機、磁帶和 IBM, CDC 提供歷史性的、靜態的資料資訊
資料訪問
(80年代) “在新英格蘭的分部去年三月的銷售額是多少?” 關聯式資料庫(RMS),結構化查詢語言(),ODBC
、、Infox、IBM、 在記錄級提供歷史性的、動態資料資訊
資料倉儲;決策支援
(90年代) “在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什麼結論?” 聯機分析處理(OLAP)、多維
資料庫、資料倉儲 Pilot、Comshare、Arbor、Cognos、Microstrategy 在各種層次上提供回溯的、動態的資料資訊
資料探勘
(正在流行) “下個月波士頓的銷售會怎麼樣?為什麼?” 高階演算法、多處理器計算機、海量資料庫 Pilot、
Lockheed、IBM、SGI、其他初創公司 提供預測性的資訊

表一、資料探勘的進化歷程。

  資料探勘的核心模組技術歷經了數十年的發展,其中包括數理統計、人工智慧、機器學習。今天,這些成熟的技術,
加上高效能的關聯式資料庫引擎以及廣泛的資料整合,讓資料探勘技術在當前的資料倉儲環境中進入了實用的階段。

資料探勘的範圍

  “資料探勘”這個名字來源於它有點類似於在山脈中挖掘有價值的礦藏。在商業應用裡,它就表現為在大型資料庫裡
面搜尋有價值的商業資訊。這兩種過程都需要對巨量的材料進行詳細地過濾,並且需要智慧且精確地定位潛在價值的所
在。對於給定了大小的資料庫,資料探勘技術可以用它如下的超能力產生巨大的商業機會:

  自動趨勢預測。資料探勘能自動在大型資料庫裡面找尋潛在的預測資訊。傳統上需要很多專家來進行分析的問題,現
在可以快速而直接地從資料中間找到答案。一個典型的利用資料探勘進行預測的例子就是目標營銷。資料探勘工具可以根
據過去郵件推銷中的大量資料找出其中最有可能對將來的郵件推銷作出反應的客戶。

  自動探測以前未發現的。資料探勘工具掃描整個資料庫並辨認出那些隱藏著的模式,比如透過分析零售資料來辨
別出表面上看起來沒聯絡的產品,實際上有很多情況下是一起被售出的情況。

  資料探勘技術可以讓現有的和硬體更加自動化,並且可以在升級的或者新開發的平臺上。當資料探勘工具運
行於高效能的並行處理系統上的時候,它能在數分鐘內分析一個超大型的資料庫。這種更快的處理速度意味著使用者有更多
的機會來分析資料,讓分析的結果更加準確可靠,並且易於理解。

資料庫可以由此擴充深度和廣度

  深度上,允許有更多的列存在。以往,在進行較複雜的資料分析時,專家們限於時間因素,不得不對參加運算的變數
數量加以限制,但是那些被丟棄而沒有參加運算的變數有可能包含著另一些不為人知的有用資訊。現在,高效能的資料挖
掘工具讓使用者對資料庫能進行通盤的深度編歷,並且任何可能參選的變數都被考慮進去,再不需要選擇變數的子集來進行
運算了。

  廣度上,允許有更多的行存在。更大的樣本讓產生錯誤和變化的機率降低,這樣使用者就能更加精確地推匯出一些雖小
但頗為重要的結論。

  最近,Gartner Group的一次高階技術調查將資料探勘和人工智慧列為“未來三到五年內將對工業產生深遠影響的五大
關鍵技術”之首,並且還將並行處理體系和資料探勘列為未來五年內投資焦點的十大新興技術前兩位。根據最近Gartner的
HPC研究表明,“隨著資料捕獲、傳輸和儲存技術的快速發展,大型系統使用者將更多地需要採用新技術來挖掘市場以外的價
值,採用更為廣闊的並行處理系統來建立新的商業增長點。”

  在資料探勘中最常用的技術有:

  人工神經:仿照生理神經網路結構的非線形預測模型,透過學習進行模式識別。

  決策樹:代表著決策集的樹形結構。

  遺傳演算法:基於進化理論,並採用遺傳結合、遺傳變異、以及自然選擇等設計方法的技術。

  近鄰演算法:將資料集合中每一個記錄進行分類的方法。

  規則推導:從統計意義上對資料中的“如果-那麼”規則進行尋找和推導。

  採用上述技術的某些專門的分析工具已經發展了大約十年的歷史,不過這些工具所面對的資料量通常較小。而現在這
些技術已經被直接整合到許多大型的工業標準的資料倉儲和聯機分析系統中去了。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752043/viewspace-989358/,如需轉載,請註明出處,否則將追究法律責任。

相關文章