資料科學家如何變得性感的故事,大致也就是作為成熟學科的統計學如何與新興學科電腦科學發生關係的故事。「資料科學」這個術語的出現較晚近,用來指代一個需要解讀大量資料的職業。但解讀資料這件事的歷史很長,它已經被科學家、統計學家、圖書館員、電腦科學家以及其他人士討論多年。下文的時間線追溯「資料科學」一詞的演化,以及它的應用、對它進行定義的嘗試和一些相關的術語。

1962 年 John W.Tukey 在《資料分析的未來》(The Future of Data Analysis)中寫道:「長久以來我以為我是一名統計學者,對於從特例中獲得關於總體的推斷抱有興趣。但當我目睹了數理統計學的發展,我產生了猜想與懷疑…我開始感到我根本的興趣在於資料分析…資料分析,以及與之相關的一部分統計學,必須…擔負更多科學的特性而非數學的特性…資料分析本質上是一門經驗科學…預設程式的電子計算機…究竟有多重要呢?在許多情況下,答案是令人驚訝的:重要但不是至關重要,而在其他情況下計算機無疑是至關重要的。」

1947 年 Tukey 創造了「位元(bit)」這個術語,這個詞在 1948 年被 Claude Shannon 用於《傳播的數學理論》(A Mathematical Theory of Communications)一文中。1977 年,Tukey 出版了《探索性資料分析》(Exploratory Data Analysis),他在書中提出,應該更重視利用資料做出哪些假設需要被測試的建議,以及,探索性的資料分析和論證性的資料分析「能夠且應該並駕齊驅」。

1458040273-9733-3417eb9bbd9018509c080c
1974 年 PeterNaur 在瑞典和美國出版了《計算機方法的簡要調查》( ConciseSurvey of Computer Methods )。這是一項有關當時使用的資料處理方法的調查,其中包含許多種應用。此書遵循國際資訊處理聯合會的《資料處理概念與術語指南》(IFIP Guide to Concepts and Terms inData Processing)中對資料的定義:資料是對於事實或想法的一種規範化表現,它須能以某種形式被傳播或操作。此書的前言中提到,在 1968 年一份題為《資料學:資料和資料處理的科學及其在教育中的地位》的課程計劃曾在國際資訊處理聯合會展示。Naur 為資料科學提供瞭如下定義:「在資料形成後,處置資料的科學。而資料與其所代表的東西間的關係屬於其他領域與科學的範疇。」

1977 年,國際統計計算聯合會( The International Association for Statistical Computing )簡稱 IASC 作為國際統計研究院( ISI )的一個分支成立。“國際統計計算聯合會的任務是把傳統統計方法、現代計算機技術和各領域專家的知識連線到一起,以將資料轉化為資訊和知識。”

1458040274-4067-3417eb9bbd9018509c120d
1989 年 GregoryPiatetsky-Shapiro 組織並主持了第一屆資料庫知識發現( Knowledge Discovery in Databases )簡稱 KDD 研討會。1995 年,它成為了國際計算機年會有關知識發現與資料探勘的 SIGKDD 會議。

1994 年 9 月,商業週刊發表了一篇關於“資料庫營銷”的商業報導:“企業收集了大量有關你的資訊,並使用這些知識提煉成營銷資訊精確瞄準你…八十年代對掃碼器的熱潮在大範圍的失望中結束:許多公司被資料總量淹沒卻無法獲得有用資訊…不過,許多公司相信,除了勇敢站在資料庫營銷的前線以外他們別無選擇。”

1996 年國際分類協會聯盟(InternationalFederation of Classification Societies  )簡稱 IFCS 在日本神戶舉行雙年會。「資料科學」這個術語首次被包含在會議的標題裡(資料科學,分類和其他相關方法)。聯盟於 1985 年由六個國別/語言的分類組織共同成立,其中之一的分類協會( The Classification Society )成立於 1964 年。這些分類協會在其出版物中大量使用資料分析、資料探勘、資料科學等術語。

1458040273-5745-3417eb9bbd9018509c210e
1996 年 Usama Fayyad、Gregory Piatetsky-Shapiro、Padhraic Smyth 出版了《從資料探勘到資料庫中的知識發現》(From Data Mining to Knowledge Discovery in Databases)。他們寫道:「過去,從資料中尋找有用模式這件事曾被賦予很多名字,包括資料探勘、知識提取、資訊發現、資訊收穫、資料考古、資料模式處理…在我們看來,KDD(資料庫中的知識發現)指代從資料中獲得有用知識的整個過程,而資料探勘指代其中一個具體環節。資料探勘是應用特定演算法從資料中提取模式… KDD 過程中的其他步驟,例如資料準備、資料選擇、資料清洗、與合適的已知知識的結合、對挖掘結果的正確解讀對於保證從資料中獲取有用知識都很重要。盲目應用資料探勘方法(在統計文獻中被批評為「資料挖泥」( data dredging )可能是危險的,會得出無用的發現和無效的模式。」

1997 年 C.F.Jeff Wu 教授(現就職於喬治亞理工大學)在密歇根大學統計系 H. C.Carver 主席的就職典禮上倡議,統計學應被重新命名為資料科學,統計學家應被重新命名為資料科學家。

1997 年《資料探勘與知識發現》( Data Mining and Knowledge Discovery )期刊發行。這兩個術語的順序意味著「資料探勘」地位的上升,併成為更流行的描述「從大資料庫中提取資訊」的方式。

1999 年 12 月, 沃頓商學院 Knowledge@Wharton 的《從資料中挖掘知識的金塊》引用了Jacob Zahavi 的說法:「傳統統計方法在小資料集上工作良好。但今天的資料庫有上百萬行和大量的列…可擴充性成了資料探勘的一個大問題。另一個技術挑戰是開發出能更好分析資料、發現非線性關係和元素間聯絡的模型…對於網站決策可能需要特殊的資料探勘工具。」

2001 年 William S.Cleveland 出版了《資料科學:一份擴充套件統計領域技術領域的行動方案》(Data Science: An Action Plan for Expanding the Technical Areas of theField of Statistics)。這份計劃要擴大統計學領域的技術工作主要領域。這份計劃雄心勃勃包含本質性變化。變化後的領域被稱為「資料科學」。Cleveland把這個新領域定位在電腦科學與當代資料探勘工作中:「…資料分析師收益有限。因為電腦科學家思考和分析資料的方法有限,就如同統計學家關於計算環境的知識有限。知識的融合會帶來巨大的生產力革新。這意味著統計學家應多注意有關知識的計算,就如同過去資料科學對數學注意 … 資料科學系應該由致力於提升資料計算的成員和與電腦科學家合作的成員組成。」

2001 年 Leo Breiman 出版了《統計建模:兩種文化》( Statistical Modeling: The Two Cultures ):「在使用統計模型從資料中提取結論的過程中有兩種文化。一個假定資料是由一個特定分佈模型生成的。另一個使用演算法模型,並把資料結構看作未知的。統計學界普遍致力於僅僅使用針對資料的模型。這種投入產生了無意義的理論、值得懷疑的結論,並讓統計學家無法觸及大量現實問題。演算法模型,在理論與實踐中,在統計學之外快速發展。它既可以被應用於龐大複雜的資料集,也可以在小資料集上建立精確資訊量大的模型。如果我們這個領域的目標是使用資料解決問題,那麼我們需要擺脫對純粹基於資料模型的依賴,並使用更多樣的工具。」

2002 年 4 月,資料科學期刊( Data Science Journal )創刊,旨在發表「科學與技術領域的資料與資料庫管理」方面的論文。「此期刊涵蓋對於資料系統的描述,及其在網際網路上的釋出、應用和法律問題。」此期刊由國際科學理事會( International Council for Science )旗下的資料科學技術委員會( Data for Science and Technology )出版。

2003 年 1 月,期刊資料科學( Journal of Data Science )創刊:「我們用‘資料科學’指代與資料有關的一切業務:收集、分析、建模……但最重要的部分是它的應用——所有形式的應用。本刊著眼於廣義上的統計方法應用…期刊資料科學為所有資料工作者提供一個展示看法、交流思想的平臺。」

2005 年 5 月,Thomas H. Davenport、Don Cohen、 Al Jacobson 共同發表了《分析的較量》( Competing on Analytics ),這是一份巴布森學院工作知識研究中心的報告。報告描述「一種基於對分析、資料、基於事實決策的新型競爭的發展…企業開始應用統計量化方法和預測模型,而不再是傳統手段,作為競爭的主要部分。」這項研究晚些時候由 Davenport 發表在《哈佛經濟評論》( 2006 年 1 月),之後被擴充套件成《分析的較量:勝利的新科學》一書( 2007 年 3 月)。

2005 年 9 月,美國國家科學委員會出版了《長存的數碼資料收集:使 21 世紀的研究與教育成為可能》( Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century )。此報告的一則推薦語寫道:「NSF(美國國家科學基金會)與收集的管理者與廣義團體合作。 NSF 應該行動起來,讓資料科學家的職業道路發展、成熟,保證研究機構包含一定數量的高質量資料科學家。」這份報告將「資料科學家」定義為「資訊與電腦科學家,資料庫與軟體工程師與程式設計師,跨學科專家,保管員以及專業註釋者,圖書館員,檔案館員和其他人員,這些人對數碼資料收集的成功管理至關重要。」

2007 年上海的復旦大學成立了資料科學研究中心( Research Center for Dataology and Data Science )。2009 年此中心的兩位學者朱揚勇和熊贇出版了《資料學與資料科學概論》( Introduction to Dataology and Data Science ),這篇文章中他們聲稱「與自然科學和社會科學不同,資料學與資料科學以數碼世界的資料作為研究物件。這是一門新的科學。」這家中心還舉辦資料科學國際研討會。

2008 年 7 月,Jisc 出版了一項旨在「盤點與推薦對資料科學家的角色與職業發展,以及相關的資料處理技術在學術界的供應」的研究的最終報告。這份題為《資料科學家與管理者的技能、角色、職業結構:對現有實踐與未來需求的評估》的報告( The Skills, Role & Career Structure of Data Scientists & Curators:  Assessment of Current Practice & Future Needs ),把資料科學家定義為「在研究實施之處工作-或是在資料中心團隊,與資料的創造者緊密合作-可能會進行創造性探尋與分析使他人能使用數碼資料工作,以及資料庫技術開發的人士。」

2009 年 1 月,《為了科學與社會駕馭數碼資料的力量》( Harnessing the Power of Digital Data for Science and Society )出版。這份報告由數碼資料跨機構工作組( Interagency Working Group on Digital Data )提交給美國國家科技理事會的科學委員會( The Committee on Science of the National Science and Technology Council )。報告稱「國家需要識別與推廣擅長在複雜動態的挑戰中進行資料儲存、維持獲取、再利用、變更用途的新學科與技術人才。許多學科見證著一類新型資料科學與管理專家的崛起,他們擅長電腦、資訊、資料科學領域以及另外某種科學領域。這些人是科學事業在現在與未來獲取成功的關鍵。然而這些人的貢獻通常未被認可,他們的職業路徑也有限。」

2009 年 1 月,谷歌的首席經濟學家 HalVarian 告訴《麥肯錫季報》( Mc Kinsey Quarterly):「我一直說未來十年最性感的工作是統計學家。人們以為我在開玩笑,但誰會料到電腦工程師成了 1990 年代最性感的工作呢?駕馭資料的能力-能夠理解它,處理它,從中提取價值,視覺化,進行溝通-這將是未來幾十年非常重要的技能。因為現在我們有免費的無處不在的資料。所以,所需的稀缺要素是理解資料並從中提取價值的能力…我真的認為這些能力-接觸、理解、傳達來自資料分析的洞察-會是及其重要的。管理者需要能夠獨立接觸和理解資料。」

2009 年 3 月 Kirk D. Borne 和其他天體物理學家向 Astro 2010 Decadal Survey 提交了一份題為《天文學教育的改革:大眾的資料科學》( The Revolution in Astronomy Education: Data Science for the Masses )的文章。文章中說:「訓練下一代從資料中得到明智的結論對科學、社群、專案、機構、商業、經濟的成功都是不可或缺的。對於專家(科學家)和非專業技術人員(其他所有人:大眾,教育者,學生,勞動力)都是這樣。專家比較學習和應用新的資料科學研究技巧以增進我們對宇宙的理解。非專業技術人員作為 21 世界的勞動力需要基礎的資訊技能,加之從日益被資料佔領的世界中終身學習的技能。」

2009 年 5 月,Mike Driscol 在《資料極客的三種性感技能》( The Three Sexy Skills of Data Geeks )中寫道:「…生活在資料時代之下,那些能夠建模、合併、視覺傳達資料的人——請叫我們統計學家或資料極客——是搶手貨。」Driscol 後來又在 2010 年 8 月發表了《成功資料科學家的七個祕密》( The Seven Secrets of Successful Data Scientists )。

2009 年 Nathan Yau 在《資料科學家的崛起》( Rise of the Data Scientist )中寫道:「我們都曾讀到過,谷歌的首席經濟學家 Hal Varian 在 1 月坦言未來十年最性感的工作會是統計學家。我顯然完全同意這個看法。見鬼,我想說得再絕對一點。它現在就已經是最性感的工作了,無論肉體或精神層面。不過,如果你繼續讀 Varian 的訪談,你會發現他所謂的統計學家實際是泛指一類人,他們從大型資料集中提取資訊,然後為不是資料專家的人們呈現一些可用的東西…(Ben) Fry 提倡一個把許多分散領域專業知識的技能和人才彙集在一起的全新領域… (包含電腦科學,數學,統計學,資料探勘,圖形設計,資料視覺化和人機互動)。在 Flowing Data 網站強調視覺化的兩年之後,領域間的合作看起來變得更常見,但更重要的是,計算資訊設計逐步逼近現實。我們看到資料科學家——能完成全部這些工作的人——從人群中脫穎而出。」

2009 年 6 月 ,Troy Sadkowsky 在 LinkedIn 上建立了資料科學群組(data scientists group),跟他的網站 datasceintists.com 配套(之後變成 data scientists.net)。

2010 年 2 月, KennethCukier 為《經濟學人》寫了特別報導《資料,到處都是資料》( Data, Data Everywhere ):「…一種新的職業出現了,資料科學家,他們結合了軟體程式設計師、統計學家和講述者/藝術家的技能,從資料的群山中挖掘金塊。」

2010 年 6 月, Mike Loukides 在《資料科學是什麼?》( What is Data Science? )中寫道:「資料科學家把創業實踐、增量建立資料產品的意願、探索的能力、迭代獲取解決的能力相結合。他們本質是跨學科的。他們可以觸碰同一個問題的所有方面,從最初的資料收集和調整到做出結論。他們能超出常規思考,提出解決問題的新方式,或者處理很寬泛的問題:這裡有很多資料,你能由此做點什麼嗎?」

2010 年 9 月, Hilary Mason 和 Chris Wiggins 在《資料科學的一種分類法》( A Taxonomy of Data Science )中寫道:「…我們認為提出一種分類法是有用的…有關資料科學家都做些什麼,以粗略的時間順序排列:獲得,清洗,探索,建模,解讀…資料科學很明顯是黑客藝術、統計學、機器學習,以及數學知識加上要用資料分析解讀的領域知識的一種混合…這需要在一個科學環境中的創造性決策和開明的思想。」

1458040273-2157-3417eb9bbd9018509c3b0f

來源:Drew Conway

2010 年 9 月, Drew Conway 在《資料科學文恩圖》( The Data Science Venn Diagram )寫道:「…如果有人想成為一個完全稱職的資料科學家,那需要學習很多東西。可惜的是,單純例舉文字和教材並無法緩解這種糾結。所以,出於簡化討論的考慮,以及把我個人的想法新增進這個已經很擁擠的思想集合中的考慮,我把資料科學文恩圖呈現給大家…黑客技能,數學與統計知識和專業知識。」

2011 年 5 月,Pete Warden 在《為何‘資料科學’一詞有瑕疵卻也有用》( Why the term ‘data science’ is flawed but useful )裡寫道 : 「什麼屬於,什麼不屬於資料科學,並沒有被廣泛認同的邊界。它只是對統計學進行一種時髦的再包裝嗎?我不這麼認為,但我也沒有對它詳盡的定義。我相信近期出現的資料充裕為世界點亮了什麼新的東西,而當我環視四周我看到的是擁有共同特徵,卻難以被歸入傳統類別的人們。這些人傾向於超越那些統治著企業和工業界的狹窄細分,掌控從尋找資料、大規模處理、視覺化、將其寫成故事的每個環節。他們的工作看似是始於審視資料能告訴他們什麼,然後從中挑出有趣的線索進行深入,而不是像傳統的科學家那樣先選擇問題,然後尋找資料來探討問題。」

2011 年 5 月, David Smith 在《資料科學:這名字包含什麼?》( Data Science :  What’s in a name? )寫道:「資料科學和資料科學家這兩個術語被廣泛使用了一年多,但從那時起它們就真的大獲成功:許多公司現在在招聘‘資料科學家’,會議都被冠以‘資料科學’的名字。但儘管存在這種廣泛接受,有些人還是拒絕改掉‘統計學家’或‘量化’,‘資料分析師’這些相對傳統的術語…我認為‘資料科學’這個詞最能描述我們實際做的事:一種計算機黑客、資料分析、問題解決的組合。」

2011 年 6 月,Mat thew J. Graham 在「天文大型資料庫中天文統計和資料探勘研討會」談到「資料科學的藝術」。他說:「為了在 21 世紀新型資料密集環境中獲得成功,我們需要開發新的技能…我們需要理解(資料)遵從什麼規律,如何被符號化和傳播,以及它們與物理時空的關係。」

1458040272-1196-3417eb9bbd9018509c4910
2011 年 9 月,Harlan Harris 在《資料科學,摩爾定律和點球成金》( Data Science, Moore’s Law, and Moneyball )中寫道:「‘資料科學’被定義為‘資料科學家’所做的事情。資料科學家所做的事情覆蓋很廣,從資料收集融合,到對統計與機器學習和其他技能的應用,到解讀傳達和結果的視覺化。‘資料科學家到底是什麼人’可能是更根本的問題…我比較喜歡這樣一種想法,即資料科學是由其執行者所定義的,它是一個職業路徑而不是一類活動。在我與人們交流的過程中瞭解到,自認為資料科學家的人們通常有多元的職業路徑,表面上看這有些說不通。」

2011 年 9 月,D.J.Patil 在《建立資料科學團隊》( Building Data Science Teams )中寫道:「起初在 2008 年,我和 Jeff Hammerbacher (@hackingdata) 坐在一起分享我們在 Facebook 和 LinkedIn 建立資料與分析團隊的經歷。在許多意義上,那次會面是資料科學作為一個獨特專業領域的開始…我們意識到隨著我們所在機構的成長,我們都要琢磨如何稱呼團隊的成員。‘商業分析師’聽起來太侷限。‘資料分析師’是另一個備選,但我們擔心這個頭銜會限制成員的能力範圍。畢竟,我們團隊的很多成員有深厚的工程師背景。‘研究科學家’在 Sun、HP、 Xerox、 Yahoo、IBM 這樣的大公司聽起來是個合理的頭銜。不過我們感覺研究科學家大多專注於未來抽象的專案,實驗室裡的工作也與產品開發團隊隔絕。如果實驗室的工作最終能影響核心產品,也需要花費幾年時間。與之不同的是,我們的團隊致力於資料的應用,能夠立即對業務產生大規模的影響。‘資料科學家’看起來是最合適的頭銜:同時使用資料與科學創造新東西的人。」

2012 年 9 月,Tom Davenport 和 D.J. Patil 在《哈佛商業評論》發表了《資料科學家:21世紀最性感的職業》( Data Scientist: The Sexiest Job of the 21st Century )。

來源:forbes.com

作者:Gil Press

編譯:Datartisan資料工匠-王鵬宇