資料探勘概念

fumin發表於2011-11-15

人們對於資料的擁有欲是貪婪的,特別是計算機網路技術和儲存技術的發展加速了人們收集資料的範圍和容量。這種貪婪的結果導致了“資料豐富而知識貧乏”現象的產生。說來慚愧,我的硬碟裡有一個18GB的資料資料夾,裡面都是本人長期收集的電子書,涵蓋了電腦科學與技術的各個領域,但是至今絕大多數都是沒有看過的。資料是具體的,知識是一種概念、規則、模式和規律;資料不能直接對我們產生幫助,只有從中產生了知識才能幫助我們進行預言和決策。

所謂資料和知識,可以舉一個簡單的例子,高中會做一個胡克定律的物理實驗,測量出來的彈力和形變就是資料,通常這些資料有很多,而從這些資料中尋找規律進而發現的胡克定律就是知識了。有了胡克定律我們就可以根據以前的資料來推測未來的實驗資料了。

計算機領域的資料探勘就是從資料發現知識的過程。

一般來說資料探勘所需要的資料是儲存在資料倉儲裡的。資料倉儲其實是一個資料庫,它向使用者提供用於決策支援的當前和歷史資料。但是資料倉儲和傳統的操作性資料庫又有很大的區別,表1列出了它們的一些不同。

                                         表1 操作性資料庫和資料倉儲的區別

 

操作性資料庫

資料倉儲

使用者

操作人員、低層管理人員

決策人員、高階管理人員

功能

日常操作性事務處理

分析決策

設計目標

面向應用

面向主題

資料特點

當前的、最新的、細節的、二維的與分立的

歷史的、聚集的、多維的、整合的與統一的

存取規模

通常一次讀或寫數十條記錄

可能讀取百萬條以上記錄

工作單元

一個事務

一個複雜查詢

使用者數

通常是成千上萬個使用者

可能只有幾十個使用者

資料庫大小

通常在GB級

通常在TB級


簡單地說,資料倉儲就是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,通常用於輔助決策支援。

談到資料探勘,就必須提到另一個名詞:資料庫中的“知識發現”(Knowledge Discovery in Database, KDD)。這兩個術語含義基本相同,在現今的文獻中,這兩個術語經常不加區別地使用著。有人認為資料探勘的範圍更廣泛一些,因為資料探勘系統的資料來源非常豐富,不僅可以是資料庫,還可以是Web資料、文字資料等多種資料組織形式中挖掘知識。但是換個角度講,即使是Web挖掘恐怕也離不開利用資料庫技術來組織和儲存抽取的資料。而維基百科對二者關係的解釋是資料探勘是KDD的一個步驟,它把KDD分為五個步驟:1.資料選擇;2.資料預處理(資料清洗等);3.資料轉換;4.資料探勘;5.模式生成及評估。既然大家對二者的區別都沒有一個公論,那我們也沒必要繼續為這個問題而較真了。

資料探勘是一個多學科交叉的研究領域,融合了資料庫技術、人工智慧、機器學習、統計學、知識工程、物件導向方法、資訊檢索、高效能運算、資料視覺化等最新技術的研究成果。作為計算機學科的研究人員,可能主要關注的是資料探勘的方法。根據挖掘方法進行分類,可以分為:

  • 機器學習方法。
  • 統計方法。
  • 聚類分析方法。
  • 神經網路方法。
  • 遺傳演算法方法。
  • 資料庫方法。
  • 近似推理和不確定性推理方法。
  • 基於證據理論和元模式的方法。
  • 現代數學分析方法。
  • 粗糙集或模糊集方法。
  • 整合方法等。

有時候做事總需要一個契機,由於選了資料探勘的課,就到圖書館借了兩本資料探勘方面的書來看,現在總算是瞭解個大概。實驗室是做儲存的,看起來自己的研究方向也和資料探勘打不著關係,但是再一琢磨,做體系結構的人經常需要分析系統負載的trace,從而發現規律幫助設計一個好的tradeoff。這是不是也可以看成是一種資料探勘呢?只不過目前這個挖掘的過程可能比較粗糙,沒有形成一個系統的方法,更多的是靠研究人員的直覺。

最後給出計算機學會推薦的資料庫和資料探勘領域的頂級期刊和會議,以供參考。

  • ACM Transactions on Database Systems,TODS
  • ACM Transactions on Information and Systems,TOIS
  • ACM Transactions on Knowledge Discovery from Data,TKDD
  • IEEE Transactions on  Knowledge and Data Engineering,IEEE TKDE
  • VLDB Journal,VLDBJ 
  • ACM Conference on Management of Data,SIGMOD
  • ACM Knowledge Discovery and Data Mining,SIGKDD
  • ACM SIGMOD Conference on Principles of DB Systems,PODS
  • IEEE International Conference on Data Engineering,ICDE 
  • International Conference on Research and Development in Information Retrieval,SIGIR
  • International Conference on Very Large Data Bases,VLDB

參考文獻:

[1] 毛國君等。資料探勘原理與演算法。清華大學出版社。

[2] 韓慧等。資料倉儲與資料探勘。清華大學出版社。

[3] http://en.wikipedia.org/wiki/Data_mining

[4] 計算機學會推薦期刊和會議,http://www.ccf.org.cn/sites/ccf/biaodan.jsp?contentId=2567518742937


相關文章