大咖 | “大資料之父”達文波特:成功的資料科學家不一定要有研究生學位

weixin_34402408發表於2018-01-20

大資料文摘作品

作者:托馬斯·H·達文波特


9741289-93f8d7fc779fa968.png

2006年6月,喬納森·高德曼(Jonathan Goldman)進入商務社交網站LinkedIn工作。作為史丹佛大學物理學博士,他醉心於無處不在的連結和豐富的使用者資料。雖然這兩者通常只能形成混亂的資料和淺顯的分析,但當他著手挖掘人際聯絡時,卻從中發現了“新大陸”。

他開始構建理論、檢驗預設,並研究出了模型。通過這些模型,他可以預測出某賬號所歸屬的人際網路。高德曼覺得,在探索基礎之上形成的新功能也許能為使用者提供價值。

幸運的是,LinkedIn的聯合創始人兼時任CEO雷德·霍夫曼(現執行總裁),在貝寶(PayPal)的工作經驗讓他對分析學的威力深信不疑,因此,他給了高德曼高度的自主權。

他給予高德曼一個不同於傳統產品釋出套路的新方式—在網站黃金頁面以廣告的形式掛出小型載入模組。這一測試最終大放異彩,成為了我們現在熟知的“你可能認識的人”。

傳統的資訊管理和資料分析主要用於支撐內部決策,而大資料在這方面有所不同。當然,在多數情況下,大資料也會有此用途,特別是在大企業內。不過, 資料科學家通常致力於面向客戶的產品和服務,而不是建立為高管制定內部決策提供建議的報表或報告。

資料科學家這一概念直到2008年,才由D.J. 帕蒂爾和傑夫·哈默巴赫爾創造,這個職位因為被達文波特喻為“21世紀最性感的職業”而為更多人所熟知。那麼,成為一名資料科學家,需要怎樣的潛質和能力?

資料科學家的特徵

我們可以用這樣一張圖表,來展示資料科學家必備的技能結構:

9741289-6f87f3e10ab18278.png

1、要想成為資料科學家,先去做黑客吧!

由於大資料技術是一種新興技術,而且很難將其提取出來用於分析,所以,要想成為一位成功的資料科學家,就必須具備一些黑客的特徵。

首先,你必須具備編碼或程式設計能力。“你會編寫程式碼嗎”,這是一位首席科學家在招聘時向資料科學家提出的第一個問題。如果你具備任何程式語言方面的經驗,那將大有裨益,尤其是指令碼語言,如 Python、 Hive 和Pig,或者有時會生成的語言,如 Java。這些指令碼語言相對容易編寫,還能將大型資料處理問題分佈於分散式 MapReduce 框架中。

資料科學中的黑客還需要熟悉常用的大資料技術,最重要的是 Hadoop/MapReduce,包括如何實施和擴充套件它們,以及是否需要在所在地點或雲端計算中提供這些技術。這些技術都是一些新技術,還在不斷變化,所以資料科學家必須具備開放性思維,而且要特別開放,以學習新工具和新方法。

最後,對黑客技術做一個總結,很多大企業不願意僱用黑客是有原因的。在本文中,黑客技術通常被定義為一種創新的快速計算,但這一術語還有一層“不太合法”的意味,即傾向於避開計算行為的正常規則。就當前大資料技術低下的情形而言,後一種意義的黑客技術可能是必需的。然而,值得注意的是,黑客特徵在資料科學家特徵中並不占主導地位,你可能會為此後悔。鐵桿黑客帶來的麻煩遠比他們帶來的益處要多得多。而且,他們也未必有興趣為大型官僚組織效力。

2、成功的資料科學家,不一定要有研究生學位

在資料科學家的特徵中,科學家這一特徵不一定意味著必須是實戰科學家。然而, 2012 年,我對 30 名資料科學家進行了採訪,結果發現,57% 取得了科學和技術領域的博士學位, 90% 至少在科學或技術領域獲得過一個高階學位,最常見的是實驗物理學博士, 其中還包括生物學、生態學或社會科學等高階學位,而且這些領域通常涉及大量的計算機工作。

資料科學是否需要這些領域詳細的相關知識呢? 絕對不需要。對實驗物理學博士而言,重要的不是學位或相關的具體知識,而是完成資料科學任務所需的能力和態度,其能力包括開展實驗、設計實驗裝置,以及利用資料來收集、分析和描述結果的能力。科學家分析的資料不可能是真正的資料科學家,就連大學也很少接觸到真正的大資料,但它很可能是一種非結構化的資料。

進行大資料分析的科學家可能會具備的特徵有:基於證據做決策、即興創作、急躁以及自己動手的寬慰感。在大資料工作的早期階段,這些技能很重要。在這一階段中,資料科學家必須執行一些開創性工作,而在後期,這些工作可能會通過軟體輕鬆地完成。科學家也可能是快速學習者,能迅速地吸收和掌握新技術。

應當指出的是,許多成功的資料科學家根本沒有研究生學位,他們的大多技能都是自學而來的,因為以前的大學並不提供這方面的課程。例如,領先的資料科學家傑夫 · 哈默巴赫(Jeff Hammerbacher)在 Facebook 工作時與當時就職於領英的帕蒂爾(DJ Patil)創造了資料科學家這一術語,而那時他只有本科學位。大資料文化是一種任人唯才的文化,而不是一種強調具備某種資料科學學位的文化。

3、你得是一位可信的顧問

正如傳統的定量分析師一樣,資料科學家需要具備良好的人際溝通技能。然而,正如傳統的資料分析師一樣,他們不可能具備這些技能。因為如果你將大部分精力放在計算機和統計資料上,就不會對人際關係產生太大的興趣。

不過,良好的人際溝通技能肯定是必要的。資料科學家要為高管制定內部決策提供建議;在以資料為產品的企業裡,資料科學家還要為負責產品和營銷的管理者就資料產品和服務的機會提出建議。最早一批資料科學家中的帕蒂爾參與創造了這一術語,他常喜歡說,資料科學家必須“站在橋上”,近距離地向船長提出建議。果資料科學家和決策者之間存在中介的話,決策者可能無法瞭解關鍵決策涉及的所有重要資料和問題。

有證據表明,這些技巧很重要。高德納公司(Gartner)的研究發現,“70%~80% 的企業智慧商業專案的失敗”是因為“IT 部門和業務部門之間缺乏溝通,未能提出正確的問題,或未能考慮到企業的真正需求”。智慧商業專案通常涉及的都是一些小資料,而不是大資料。然而,某些專案之所以失敗是因為自身存在問題。毫無疑問,缺乏溝通的小資料和大資料專案會引發大問題。

4、先成為定量分析師

在大資料被獲取並被“馴服”之後,即從非結構化資料轉換為結構化資料之後,必須用傳統的方式對其進行分析。因此,資料科學家還需要承擔起定量分析師的工作,瞭解他們身邊的各種數學和統計技能,並能夠輕鬆地向非技術人員做解釋。我和一些作者已經合著了很多關於這些統計技能的書籍,所以在這裡就不再詳述這些技能了。

然而,小型非結構化資料的分析和大資料的分析之間存在一些差異。其一是,對於較大的群體來說,小樣本統計推斷出的結果可能不太重要。隨著大資料的出現,企業往往會對整體資料進行分析,因為它們具備這種技術。如果你不是從一個樣本來推斷整個群體的結果,也就不用擔心統計資料之類的概念,換句話說,小樣本統計就是所觀察到的結果代表群體的概率,因為它們就是一個群體。儘管如此,但我相信,在許多情況中,我們仍將繼續使用樣本統計。例如,向所有美國或其他國家公民徵詢他們對政治或社會問題的看法是不可行的,所以我們還是會利用樣本調查來解決這類問題。即使你利用大量的網路資料來分析這一問題,但仍然只能代表特定時間內某些使用者的意見。

兩者之間的另一個不同之處是,大家普遍偏愛大資料的視覺化分析。至於原因,我想沒有人能完全解釋清楚。大資料分析結果往往以視覺化的形式表現出來,現在,視覺化分析有很多優勢:易於高管理解,容易引起注意。不利的一面是,它們一般不適宜於表達複雜的多元關係和統計模型。換句話來說,大多數視覺化資料是為了進行描述性分析,而不是預測性或指令性分析。然而,它們可以同時顯示大量的資料,如圖 4-1 所示,這幅圖呈現的是銀行賬戶關閉因素的視覺化分析。我發現,與許多其他複雜的大資料視覺化分析一樣,這一視覺化分析也很難解釋。我有時會想,很多大資料的視覺化分析僅僅是因為可以進行分析而被建立的,而並不是為了清晰地呈現一個問題。

為什麼視覺化分析常見於大資料中呢?有幾種可能的解釋。

這表明,由於捕捉結構化資料所付出的努力太多,所以很少有時間和精力來開展複雜的多元統計分析,只能建立一個簡單的頻率統計,然後基於頻率統計進行繪製。這種現象常見於資料科學家群體中,但沒有人知道這種方法的重要性和普遍性。

另一種解釋是,大資料和更吸引人的視覺化分析幾乎同時出現。最後一種解釋是,大資料工作是一種探索性和反覆性的工作,因此需要視覺化分析來探索資料,並向管理者和決策者傳達初步調查結果。

我們可能永遠不會知道哪個解釋更為重要,但事實是,資料科學家需要以視覺化的方式來顯示資料和分析結果。

5、做既能精通又能跨界的業務專家

資料科學家對業務的運作要有深入的瞭解,或者至少應該瞭解其中的部分環節。例如,企業如何賺錢?競爭對手是誰?企業如何在行業中成功推出產品和服務?能夠利用大資料和分析來解決的關鍵問題是什麼?這些都是一個有效率的資料科學家應該回答的問題。

掌握與業務相關的知識可以使資料科學家做出假設並迅速對其進行測試,為關鍵的功能和業務問題提供解決方案;否則,他將難以為業務增加附加值。正是對業務問題的分析使這些關於資料或傳統資料分析的知識得以發揮作用,因此,相關業務領域的興趣和經驗很重要。當然, 資料科學家有時也會在各個行業之間來回轉換,但沒有人會精通所有領域。然而,重要的是,他們需要對所從事的新業務抱有強烈的好奇心和興趣。 顯而易見,資料科學家通常都是極其聰明的人,如果他們對某個新業務感興趣,很快就會掌握相關的知識。如果你面試的是另一個行業的資料科學家,請確保他對其所從事的行業感興趣,而且具備解決問題的能力。

當然,這個技能結構對有志成為資料科學家的人才來說,是一種參考。任何人都很難同時在這五個方向都出類拔萃。通用電氣公司全球研究中心的分析學技術的負責人格拉伯是這樣說的:“在通用電氣公司,我們發現具備 2~3 個領域的專業技能的資料科學家是最有成效的”。你要做的,是在一支團隊中找到自己的位置,發揮自己的創造性,並且不斷學習。


9741289-8b2b3c899bc7eb06.png


本文摘自《資料化轉型》

作者:托馬斯·H·達文波特

相關文章