為大資料時代做好準備——來自《大資料的衝擊》一書精彩片段

謝工在GitChat發表於2013-02-20

需求高漲的資料科學家

從技術方面來看,硬碟價格下降,NoSQL資料庫等技術的出現,使得和過去相比,大量資料能夠以廉價高效的方式進行儲存。此外,像Hadoop這樣能夠在通用性伺服器上工作的分散式處理技術的出現,也使得對龐大的非結構化資料進行統計處理的工作比以往更快速且更廉價。

然而,就算所擁有的工具再完美,它本身是不可能讓資料產生價值的。接下來我們還需要能夠運用這些工具的人才,他們能夠從堆積如山的大量資料中找到金礦,並將資料的價值以易懂的形式傳達給決策者,最終得以在業務上實現。具備這些技能的人才,就是在大資料浪潮如火如荼的美國目前正千金難求的“資料科學家”。

對資料科學家的關注,源於大家逐步認識到,Google、Amazon、Facebook等公司成功的背後,存在著這樣的一批專業人才。這些Web公司對於大量資料不僅僅是進行儲存而已,而是將其變為有價值的金礦——例如,搜尋結果、定向廣告、準確的商品推薦、可能認識的好友列表等。

資料科學(data science)是一個很久之前就存在的詞彙,但資料科學家(data scientist)卻是幾年前突然出現的一個新詞。關於這個詞的起源說法不一,其中在《資料之美》(Beautiful Data,Toby Segaran、Jeff Hammerbacher編著,O’Reilly出版 )一書中,對於Facebook的資料科學家,有如下敘述。

“在Facebook,我們發現傳統的頭銜如商業分析師、統計學家、工程師和研究科學家都不能確切地定義我們團隊的角色。該角色的工作是變化多樣的:在任意給定的一天,團隊的一個成員可以用Python實現一個多階段的處理管道流、設計假設檢驗、用工具R在資料樣本上執行迴歸測試、在Hadoop上為資料密集型產品或服務設計和實現演算法,或者把我們分析的結果以清晰簡潔的方式展示給企業的其他成員。為了掌握完成這多方面任務需要的技術,我們創造了‘資料科學家’這種角色。”

僅僅在幾年前,資料科學家還不是一個正式確定的職業,然而一眨眼的工夫,這個職業就已經被譽為“今後10年IT行業最重要的人才”了。

Google首席經濟學家,加州大學伯克利分校教授哈爾•範裡安(Hal Varian,1947~)先生,在2008年10月與麥肯錫總監James Manyika先生的對話中,曾經講過下面一段話(中文版節選自麥肯錫季刊官方中文稿) 。 “我總是說,在未來10年裡,最有意思的工作將是統計學家。人們都認為我在開玩笑。但是,過去誰能想到電腦工程師會成為上世紀90年代最有趣的工作?在未來10年裡,獲取資料——以便能理解它、處理它、從中提取價值、使其形象化、傳送它——的能力將成為一種極其重要的技能,不僅在專業層面上是這樣,而且在教育層面(包括對中小學生、高中生和大學生的教育)也是如此。由於如今我們已真正擁有實質上免費的和無所不在的資料,因此,與此互補的稀缺要素是理解這些資料並從中提取價值的能力。”

範裡安教授在當初的對話中使用的是“statisticians”(統計學家)一詞,雖然當時他沒有使用“資料科學家”這個詞,但這裡所指的,正是現在我們所討論的資料科學家。

資料科學家所需的技能

資料科學家這一職業並沒有固定的定義,但大體上指的是這樣的人才。

“所謂資料科學家,是指運用統計分析、機器學習、分散式處理等技術,從大量資料中提取出對業務有意義的資訊,以易懂的形式傳達給決策者,並創造出新的資料運用服務的人才。”資料科學家所需的技能如下。

(1) 電腦科學

一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景。簡單來說,就是對處理大資料所必需的Hadoop、Mahout等大規模並行處理技術與機器學習相關的技能。

(2) 數學、統計、資料探勘等

除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其執行環境“R”最近備受矚目。R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行視覺化的高品質圖表生成功能,並可以通過簡單的命令來執行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴充套件機制,通過匯入擴充套件包就可以使用標準狀態下所不支援的函式和資料集。

(3) 資料視覺化(Visualization)

資訊的質量很大程度上依賴於其表達方式。對數字羅列所組成的資料中所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。

作為參考,下面節選了Facebook和Twitter的資料科學家招聘啟事。對於現實中的企業需要怎樣的技能,應該可以為大家提供一些更實際的體會。

Facebook對資料科學家的招聘資訊

Facebook計劃為資料科學團隊招聘資料科學家。應聘該崗位的人,將擔任軟體工程師、量化研究員的工作。理想的候選人應對線上社交網路的研究有濃厚興趣,能夠找出創造最佳產品過程中所遇到的課題,並對解決這些課題擁有熱情。

職務內容

 確定重要的產品課題,並與產品工程團隊密切合作尋求解決方案
 通過對資料運用合適的統計技術來解決課題
 將結論傳達給產品經理和工程師
 推進新資料的收集以及對現有資料來源的改良
 對產品的實驗結果進行分析和解讀
 找到測量、實驗的最佳實踐方法,傳達給產品工程團隊

必要條件

 相關技術領域的碩士或博士學位,或者具備4年以上相關工作經驗
 對使用定量手段解決分析性課題擁有豐富的經驗
 能夠輕鬆操作和分析來自各方的、複雜且大量的多維資料
 對實證性研究以及解決資料相關的難題擁有極大的熱情
 能對各種精度級別的結果採用靈活的分析手段
 具備以實際、準確且可行的方法傳達複雜定量分析的能力
 至少熟練掌握一種指令碼語言,如Python、PHP等
 精通關係型資料庫和SQL
 對R、MATLAB、SAS等分析工具具備專業知識
 具備處理大量資料集的經驗,以及使用MapReduce、Hadoop、Hive等分散式計算工具的經驗
來源:Facebook(中文翻譯出自譯者)

Twitter對資料科學家(負責增加使用者數量)的招聘資訊

關於業務內容

Twitter計劃招聘能夠為增加Twitter使用者數提供資訊和方向性,具備行動力和高超技能的人才。應聘者需要具備統計和建模方面的專業背景,以及大規模資料集處理方面的豐富經驗。 我們期待應聘者所具有的判斷力能夠在多個層面上決定Twitter產品群的方向性。

職責
 使用Hadoop、Pig編寫MapReduce格式的資料分析
 能夠針對臨時資料探勘流程和標準資料探勘流程編寫複雜的SQL查詢
 能夠使用SQL、Pig、指令碼語言、統計軟體包編寫程式碼
 以口頭及書面形式對分析結果進行總結並做出報告
 每天對數TB規模、10億條以上事務級別的大規模結構化及非結構化資料進行處理

必要條件

 電腦科學、數學、統計學的碩士學位或者同等的經驗
 2年以上資料分析經驗
 大規模資料集及Hadoop等MapReduce架構方面的經驗
 指令碼語言及正規表示式等方面的經驗
 對離散數學、統計、概率方面的興趣
 將業務需求對映到工程系統方面的經驗
來源:Twitter(中文翻譯出自譯者)

資料科學家所需的素質

這一節的內容與技能部分有所重疊,資料科學家所需要具備的素質有以下這些。

(1) 溝通能力
即便從大資料中得到了有用的資訊,但如果無法將其在業務上實現的話,其價值就會大打折扣。為此,面對缺乏資料分析知識的業務部門員工以及經營管理層,將資料分析的結果有效傳達給他們的能力是非常重要的。
(2) 創業精神(entrepreneuership)
以世界上尚不存在的資料為中心創造新型服務的創業精神,也是資料科學家所必需的一個重要素質。Google、Amazon、Facebook等通過資料催生出新型服務的企業,都是通過對龐大的資料到底能創造出怎樣的服務進行艱苦的探索才獲得成功的。
(3) 好奇心
龐大的資料背後到底隱藏著什麼,要找出答案需要很強的好奇心。除此之外,成功的資料科學家都有一個共同點,即並非侷限於藝術、技術、醫療、自然科學等特定領域,而是對各個領域都擁有旺盛的好奇心。通過對不同領域資料的整合和分析,就有可能發現以前從未發現過的有價值的觀點。
美國的資料科學家大多擁有豐富的從業經歷,如實驗物理學家、計算機化學家、海洋學家,甚至是神經外科醫生等等。也許有人認為這是人才流動性高的美國所特有的現象,但其實正如我們在第4章中所介紹的GREE一樣,在日本也出現了一些積極招募不同職業背景人才的企業,這樣的局面距離我們已經不再遙遠。

嚴重的人才匱乏

資料科學家需要具備廣泛的技能和素質,因此預計這一職位將會陷入供不應求的狀態,即遇到人手不足的困境。例如,麥肯錫全球研究院(MGI)在2011年5月發表的題為“Big data: The next frontier for innovation, competition and productivity”(大資料:未來創新、競爭、生產力的指向標)的報告中指出,在美國具備高度分析技能的人才(大學及研究生院中學習統計和機器學習專業的學生)供給量,2008年為15萬人,預計到2018年將翻一番,達到30萬人。然而,預計屆時對這類人才的需求將超過供給,達到44萬~49萬人的規模,這意味著將產生14萬~19萬的人才缺口。
僅僅四、五年前,對資料科學家的需求還僅限於Google、Amazon等Web類企業中。然而在最近,重視資料分析的企業,無論是哪個行業,都在積極招募資料科學家,這也令人手不足的狀況雪上加霜。
大型IT廠商EMC在2011年12月發表的一份關於資料科學家的調查報告“EMC Data Science Study”中提出了一些非常有意思的見解。

該調查的物件包括美國、英國、法國、德國、印度、中國的資料科學家,以及商業智慧專家等IT部門的決策者,共計462人。除此之外,EMC還從2011年5月在拉斯維加斯召開的“資料科學家峰會”的參加者,以及線上資料科學家社群Kaggle中邀請了35人參加這項調查。該調查結果的要點如下。

首先,三分之二的參加者認為資料科學家供不應求。這一點與前面提到的麥肯錫的報告是相同的。 對於新的資料科學家供給來源,有三分之一的人期待“電腦科學專業的學生”,排名第一,而另一方面,期待現有商業智慧專家的卻只有12%,這一結果比較出人意料(圖表8-6)。也就是說,大部分人認為,現在的商業智慧專家無法滿足對資料科學家的需求。

資料科學家與商業智慧專家之間的區別在於,從包括公司外部資料在內的資料獲取階段,一直到基於資料最終產生業務上的決策,資料科學家大多會貫穿資料的整個生命週期。這一過程中也包括對資料的過濾、系統化、視覺化等工作

研究生院的成立

隨著對大資料分析需求的高漲,未來必將帶來資料科學家的嚴重不足,為了解決這一問題,美國一些大學已經開始成立分析學專業的研究生院。

位於伊利諾伊州芝加哥郊外埃文斯頓市的美國名牌私立大學——西北大學(Northwestern University),就是其中之一。西北大學決定從2012年9月起在其工程學院下成立一個主攻大資料分析課程的分析學研究生院,並開始了招生工作。西北大學對於成立該研究生院是這樣解釋的:“雖然只要具備一些Hadoop和Cassandra的基本知識就很容易找到工作,但擁有深入知識的人才卻是十分缺乏的。”

此外,該研究生院的課程計劃以“傳授和指導將業務引向成功的技能,培養能夠領導專案團隊的優秀分析師”為目標,授課內容在數學、統計學的基礎上,融合了尖端計算機工程學和資料分析。課程預計將涵蓋分析領域中主要的三種資料分析方法:預測分析、描述分析(商業智慧和資料探勘)和規範分析(優化和模擬),具體內容如下。

(1) 秋學期
 資料探勘相關的統計方法(多元Logistic迴歸分析、非線性迴歸分析、判別分析等)
 定量方法(時間軸分析、概率模型、優化)
 決策分析(多目的決策分析、決策樹、影響圖、敏感性分析)
 樹立競爭優勢的分析(通過專案和成功案例學習基本的分析理念)

(2) 冬學期
 資料庫入門(資料模型、資料庫設計)
 預測分析(時間軸分析、主成分分析、非引數迴歸、統計流程控制)
 資料管理(ETL(Extract、Transform、Load)、資料治理、管理責任、後設資料)
 優化與啟發(整數計劃法、非線性計劃法、區域性探索法、超啟發(模擬退火、遺傳演算法))

(3) 春學期
 大資料分析(非結構化資料概念的學習、MapReduce技術、大資料分析方法)
 資料探勘(聚類(k-means法、分割法)、關聯性規則、因子分析、存活時間分析)
 其他,以下任選兩門(社交網路、文字分析、Web分析、財務分析、服務業中的分析、能源、健康醫療、供應鏈管理、綜合營銷溝通中的概率模型)

(4) 秋學期
 風險分析與運營分析的計算機模擬
 軟體層面的分析學(組織層面的分析課題、IT與業務使用者、變革管理、資料課題、結果的展現與傳達方法)
 畢業設計

在成立研究生院的同時,IT廠商也積極開展合作。IBM不僅贊助了4萬美元,還發表宣告承諾免費提供其預測分析軟體SPSS,並對硬體採購提供優惠。作為SPSS的競爭對手,同樣開發預測分析軟體的SAS以及資料倉儲廠商Teradata也將提供必需的產品以及產品使用培訓等方面的贊助和支援。

由於2012年1月就任的IBM首位女性CEO弗吉尼亞•羅曼提(Virginia Rometty,1958~)女士曾在西北大學取得了電腦科學的學士學位,並現任該校理事,因此IBM在與西北大學的合作方面十分投入,除了硬體和軟體,還宣告將在課程開發、案例研究等教材開發方面提供幫助。考慮到IBM最近在大資料以及分析業務上的發力,這一舉措無疑是希望西北大學能夠成為將來其分析人才的供應來源。

日本也開始了對資料科學家的爭奪

在日本,隨著大資料的運用水平逐步提高,也會和美國一樣產生人才不足的問題。因此,需要以政府為主導,採取對高等教育進行重新規劃等中長期的舉措。

然而,我們經常說“雲端計算接下來就是大資料”,對於想要儘早確立大資料相關業務的系統整合商來說,即便達不到“資料科學家”的水平,也必須要儘快獲得具備資料分析能力的專業人才,形勢可謂時不我待。 進入2012年以後,這一動向變得更加活躍。例如,NEC於2012年2月宣佈加強大資料業務 :“在公司內部培養或合作培養精通客戶的業務並能夠提出解決方案的領域專家和資料分析專家。今後三年中計劃將團隊規模擴大到200人。”

在NEC發表宣告僅僅兩天之後,NTT Data宣佈收購擁有約70名商業分析專業人才,從事分析諮詢業務的株式會社數理系統(Mathematical Systems, Inc.),引發了IT業界的強烈震動。NTT Data通過這一收購,使得其“商業分析專業人才達到90人”,並且還宣佈“在2012年中繼續擴充10人,計劃達到100人”。 系統整合商的這些行動,無疑是瞄準了“為難以獲得資料分析專業人才的使用者企業提供支援”這一商機。 另一方面,已經著手進行大資料運用的一部分先進的日本企業,為了獲得具備高度技能的人才,已開始將觸手伸向了海外。例如,在公司內部新成立“大資料部門” ,一直以來就致力於大資料分析的樂天,已經開始在全世界範圍內招賢納士了。該公司執行董事,樂天技術研究所所長森正彌先生,對其理由是這樣闡述的:“具備能夠在Hadoop叢集上實現機器學習演算法這樣高技能的人才,在國內難以獲得,從結果來看,我們招聘的人才中有九成都是外國人。”

管理超過9000萬件商品,擁有約7000萬人會員的樂天,除了商品和會員的屬性資料、會員購買記錄、商品評價、排名資訊等資料之外,還擁有像點選流資料、搜尋日誌等,總計達數百TB級別的資料。尤其是很多各地的中小企業都在樂天上開店,“像各地商品資訊等非結構化資料非常之多”(森正彌)。因此,樂天從很早就開始自行開發Hadoop這樣的分散式處理框架和NoSQL資料庫等技術,連美國Web類企業也感到驚訝不已。也正是因此,相比現在才開始考慮培養資料分析專家的系統整合商來說,樂天理所當然地已經處於遙遙領先的地位。 近年來,樂天開始積極推進在臺灣、印度尼西亞、泰國、法國、美國等地的全球化業務。想想看,對於致力於全球化的企業來說,已經沒有理由將招賢納士的範圍僅僅侷限在日本國內了。對於以大資料為武器真正追求全球化的企業來說,要在短期內解決資料科學家缺乏的問題,也許有更多的企業會採取引進海外人才的舉措。

最後的問題:組織結構和企業文化

有了高質量的資料和對其進行高效處理的IT基礎架構,再加上優秀的資料科學家,最後就看組織結構和企業文化了。即便能夠得到優秀的分析結果,如果沒有能夠形成準確決策和迅速行動的組織機構,則一切都是徒勞。當分析結果與經驗直覺相違背的時候,如果企業的文化中無條件地看重經驗直覺,那麼資料分析就會變得毫無意義。 在闡述資料分析有用性的名著《以分析力為武器的企業》(Competing on Analytics,Thomas H. Davenport、Jeanne G. Harris著,村井章子譯,日經BP社出版) 的序言中,就介紹了本書第1章所提到的Harrah’s Entertainment的董事長、總裁兼執行長Gary Loveman先生所說的一席話。 這裡所說的分析管理絕對還談不上與分析方法、資料的可獲得性或者技術什麼關係。(中略)……分析管理存在一些普遍的問題,例如:

 盛行的傳統思想往往與有權勢的人聯絡在一起,這些思想往往無須通過重要的測試就能一直沿用下去。
 決策,特別是高管層的決策,不僅僅是沒能進行嚴格的、不帶偏見的分析,而且那種不加分析的做法還大行其道,其根本原因在於這種做法被認為是高管層具備稀罕的天賦,人們認為這是這種天賦使企業領袖和有遠見卓識的領導有別於雖然聰明但靈感不足的人。
 企業中缺乏那些勤於而且精於資料分析工作的人。人們總是把資料分析工作看成是最後的解決辦法,而且往往從事分析的人並不熟悉恰當的分析方法。
 情況往往是由人決定思想,而非由思想掌控人。

怎麼樣?Loveman先生提出的這些問題,是不是擊中了很多企業的要害?招募優秀的資料科學家固然重要,但與此同時,千萬不能忘記對經理及高管層的培養,使他們能夠憑藉資料科學家所得到資訊做出準確的決策和行動。

目標:成為資料驅動型企業

能夠將資料分析的結果以及其中所得到的資訊及時反映到業務中以樹立競爭優勢地位的企業,在歐美被稱為“資料驅動型企業”(Data Driven Enterprise)。

為了成為資料驅動型企業,需要培養永遠基於資料進行決策的企業文化。在需要做出判斷的時候,形成總是要求提供資料佐證的氛圍是非常重要的。作為資料驅動型企業代表的Google中,每當提出一個新的想法時,都必然會被問及“是否經過測試,是否有資料佐證”這樣的問題 。

當然,通往資料驅動型企業的道路並非一馬平川,值得探討的要點有很多,例如創造一個不僅只有一部分分析團隊和管理層,而是任何員工都可以訪問的資料環境,以及能夠將分析結果迅速在業務上實現的組織結構等等。 本書中一直反覆強調,所謂“大資料”並不是單純指資料量的增加。通過對過去不曾運用的或無法運用的多種多樣的資料進行適當的收集,雖然從結果上來看,可能會形成大量的資料,但並不是說資料量一定要達到數TB甚至數PB才能算是大資料,最重要的是要發現曾經忽略的資料的價值。

相關文章