資料探勘歷史中的重要里程碑

myillusion3852發表於2015-06-09

資料探勘現在隨處可見,而它的故事在《點球成金》出版和“稜鏡門”事件發生之前就已經開始了。下文敘述的就是資料探勘的主要里程碑,歷史上的第一次,它是怎樣發展以及怎樣與資料科學和大資料融合。

資料探勘是在大資料集(即:大資料)上探索和揭示模式規律的計算過程。它是電腦科學的分支,融合了統計學、資料科學、資料庫理論和機器學習等眾多技術。

1763 年,Thomas Bayes 的論文在他死後發表,他所提出的 Bayes 理論將當前概率與先驗概率聯絡起來。因為 Bayes 理論能夠幫助理解基於概率估計的複雜現況,所以它成為了資料探勘和概率論的基礎。

1805 年, Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用迴歸確定了天體(彗星和行星)繞行太陽的軌道。迴歸分析的目標是估計變數之間的關係,在這個例子中採用的方法是最小二乘法。自此,迴歸成為資料探勘的重要工具之一。

1936 年,計算機時代即將到來,它讓海量資料的收集和處理成為可能。在1936年發表的論文《論可計算數(On  Computable Numbers)》中,Alan Turing 介紹了通用機(通用圖靈機)的構想,通用機具有像今天的計算機一般的計算能力。現代計算機就是在圖靈這一開創性概念上建立起來的。

1943 年,Warren McCullon 和 Walter Pitts 首先構建出神經網路的概念模型。在名為 《A logical calculus of the ideas immanent in nervous activity》 的論文中,他們闡述了網路中神經元的概念。每一個神經元可以做三件事情:接受輸入,處理輸入和生成輸出。

1965 年,Lawrence J. Fogel 成立了一個新的公司,名為 Decision Science, Inc,目的是對進化規劃進行應用。這是第一家專門將進化計算應用於解決現實世界問題的公司。

上世紀 70 年代,隨著資料庫管理系統趨於成熟,儲存和查詢百萬兆位元組甚至千萬億位元組成為可能。而且,資料倉儲允許使用者從面向事物處理的思維方式向更注重資料分析的方式進行轉變。然而,從這些多維模型的資料倉儲中提取複雜深度資訊的能力是非常有限的。

1975 年,John Henry Holland 所著的《自然與人工系統中的適應》問世,成為遺傳演算法領域具有開創意義的著作。這本書講解了遺傳演算法領域中的基本知識,闡述理論基礎,探索其應用。

到了 80 年代,HNC 對“資料探勘”這個短語註冊了商標。註冊這個商標的目的是為了保護名為“資料探勘工作站”的產品的智慧財產權。該工作站是一種構建神經網路模型的通用工具,不過現在早已銷聲匿跡。也正是在這個時期,出現了一些成熟的演算法,能夠“學習”資料間關係,相關領域的專家能夠從中推測出各種資料關係的實際意義。

1989 年,術語“資料庫中的知識發現”(KDD)被Gregory Piatetsky-Shapiro 提出。同樣這個時期,他合作建立起第一個同樣名為KDD的研討會。

到了 90 年代,“資料探勘”這個術語出現在資料庫社群。零售公司和金融團體使用資料探勘分析資料和觀察趨勢以擴大客源,預測利率的波動,股票價格以及顧客需求。

1992 年,Berhard E. Boser, Isabelle M. Guyon 和 Vladimir N. Vanik對原始的支援向量機提出了一種改進辦法,新的支援向量機充分考慮到非線性分類器的構建。支援向量機是一種監督學習方法,用分類和迴歸分析的方法進行資料分析和模式識別式。

1993 年,Gregory Piatetsky-Shapiro 創立“ Knowledge Discovery Nuggets (KDnuggets) ”通訊。本意是聯絡參加KDD研討會的研究者,然而KDnuggets.com的讀者群現在似乎廣泛得多。

2001 年,儘管“資料科學”這個術語在六十年代就已存在,但直至 2001 年,William S. Cleveland 才以一個獨立的概念介紹它。根據《Building Data Science Teams》所著,DJ Patil 和 Jeff Hammerbacher 隨後使用這個術語介紹他們在 LinkedIn 和 Facebook 中承擔的角色 。

2003 年,Micheal Lewis 寫的 《點球成金》 出版,同時它也改變了許多主流聯賽決策層的工作方式。奧克蘭運動家隊(美國職業棒球大聯盟球隊)使用一種統計的,資料驅動的方式針對球員的素質進行篩選,這些球員被低估或者身價更低。以這種方式,他們成功組建了一支打進2002和2003年季後賽的隊伍,而他們的薪金總額只有對手的1/3。

如今(2015年),在 2015 年二月,DJ Patil成為白宮第一位首位資料科學家。今天,資料探勘已經遍佈商業、科學、工程和醫藥,這還只是一小部分。信用卡交易,股票市場流動,國家安全,基因組測序以及臨床試驗方面的挖掘,都只是指資料探勘應用的冰山一角。隨著資料收整合本變得越來越低,資料收集裝置數目激增,像大資料這樣的專有名詞現在已經是隨處可見。

資料探勘的故事就是這樣,匆匆而過!我是否錯還過了什麼值得提及的事情?我是不是對某些事情敘述的還不夠準確?請在下面的評論中讓我知道,或者直接郵件聯絡我。

Interesting Resources

相關文章