《哈佛商業評論》(Harvard Business Review)將資料科學稱為“21世紀最性感的職業”,而大多數人也都認為,這個新興熱門領域將會對各行各業產生革命性的影響:從企業到政府,從醫療保健到學術界,不一而足。

該領域充斥著現代技術催生的龐大資料——不管是Facebook使用者的線上行為、癌症患者的組織樣本、雜貨店顧客的購買習慣還是城市的犯罪統計。資料科學家是大資料(Big Data)時代的魔術師。他們處理資料,利用數學模型分析資料並用文字或圖表加以解釋,然後建議如何利用這些資訊做出決策。

在過去的幾年裡,且不說一些新畢業生六位數的薪水,僅是為應對這種關於大資料的悸動,就已經出現了冠以各種名稱的數十個課程專案。

今年秋天,哥倫比亞大學(Columbia University)將提供偏重於資料的新的碩士課程和證書課程。舊金山大學(University of San Francisco)首批分析學碩士研究生即將畢業。其他教授資料科學的機構還包括紐約大學(New York University)、史丹佛大學(Stanford University)、西北大學(Northwestern University)、喬治·梅森大學(George Mason University)、雪城大學(Syracuse University)、加州大學歐文分校(University of California at Irvine)和印第安納大學(Indiana University)。

雷切爾·舒特(Rachel Schutt)是約翰遜實驗室(Johnson Research Labs)的高階研究科學家,上一學期在哥倫比亞大學講授“資料科學導論”(Introduction to Data Science)課程(這也是該校首門名稱中包含“資料科學”的課程)。她描述資料科學家是“電腦科學家、軟體工程師和統計學家的混合體。”又進一步說:“最優秀的資料科學家通常是充滿好奇心的、善於提出問題的思想家,他們能夠應對非結構化的情況,並試圖從中找出它們的結構。”

現年30歲的尤里·金(Eurry Kim)是一位“準資料科學家”,現攻讀哥倫比亞大學社會科學定量法的碩士課程,並計劃在畢業後加入政府服務部門。在美國國家稅務局(Internal Revenue Service)就任公司稅分析師期間,她發現了各種可能性。比如說,她可以通過分析納稅申報表資料來開發標示欺詐性檔案的運演算法則,或通過篩選國家安全資料庫來探查可疑活動。

她的一些同學希望將他們的技能應用到電子商務中,因為在該領域,關於使用者瀏覽歷史記錄的資料堪稱黃金。

“一代人是伴隨著資料科學長大的——網飛(Netflix)告訴他們應該看什麼樣的電影,亞馬遜(Amazon)告訴他們應該讀什麼樣的書——所以這是一個能落到實處的學術領域,”哥倫比亞大學應用數學教授、該校新建資料科學和工程學院(Institute for Data Sciences and Engineering)的參與者克里斯·維金斯(Chris Wiggins)說。“而且,他們也知道這會為他們帶來工作。”他補充道。

大學都在儘可能快地培養資料科學家。據麥肯錫全球研究所(McKinsey Global Institute)的報告,要滿足僱主的需求,美國將需要增加多達60%的可處理大規模資料的畢業生。未來5年將需要近50萬名有資質的資料科學家,而缺口則高達19萬;此外,還需要150萬名瞭解資料的高管和支援人員。

北卡羅來納州立大學(North Carolina State University)在2007年時引入了分析學碩士課程。據該校高階分析學院(Institute for Advanced Analytics)的發起人及負責人邁克爾·拉帕(Michael Rappa)介紹,去年該學科的全部84名畢業生都收到了工作邀請。該行業的平均薪水為89100美元,而那些先前擁有工作經驗的則超過10萬美元。

“資料科學與每一家公司都息息相關,”麥肯錫公司(McKinsey)相關領域的研究主管邁克爾·崔(Michael Chui)說,“針對這類人才的爭奪戰已經展開。”

由於資料科學剛剛興起,所以各大學都爭相為其定義,並開發相關課程。作為一個學術領域,它橫跨多個學科,涵蓋統計學、分析學、電腦科學和數學,此外還包括學生所希望分析的從海洋生物到歷史文字的各個專業領域。

由於資料數量龐大、種類繁多、瞬息萬變,加上技術不斷髮展,這類課程專案並不僅僅是現有課程的重新包裝。“資料科學是作為一個學科應運而生的,所以它並不僅僅是一個跨學科領域的聚合,而且還涉及知識體系、專業實務、專業組織和倫理責任,”查爾斯頓學院(College of Charleston)電腦科學系主席克里斯托弗·斯塔爾(Christopher Starr)說。該學院是少有的幾所在本科階段即推出資料科學專業的院校之一。

大多數的資料科學碩士課程專案都要求學生掌握基本的程式設計技能。用舒特女士的話說,他們要從“單調乏味”的部分開始——收集和清理原始資料,並“把它們放入一個你可以真正對它們進行分析的漂亮表格中”。很多院校使用的是企業或政府提供的資料集,然後再將分析結果返回給它們。有的院校舉辦競賽,看看哪個學生能夠就公司的問題拿出最佳解決方案。

舊金山大學的學生使用通用電氣(General Electric)的資料預測風車可以產生的能源。在北卡羅來納州,利用美國郵政總局(Postal Service)的資料,學生對垃圾郵件的響應率進行了分析,以期找到提升效率的方法。

研究網路使用者的資料會涉及隱私問題。利用資料來決定一個人的信貸額度或其在健康保險方面的資質,甚或在Facebook向他們推薦好友,都會影響到他們的生活。“我們建立的是會影響人們生活的模型,”舒特女士說,“我們該如何謹慎對待?”倫理課會解決這些問題。

最後,學生還要學會就他們的發現進行視覺上和口頭上的交流,並要掌握相關的商業技能,這可能涉及到新產品的開發。

“這只是其中的挑戰之一,”舊金山大學分析學和電腦科學專案主任特倫斯·帕爾(Terence Parr)說,“要想取得成功,你需要掌握一系列的技能,而這並不是一個院系就能提供的。”

在華盛頓大學講授資料科學的比爾·豪(Bill Howe)說,問題是,究竟有沒有可能讓一個人掌握從統計學到預測建模再到商業策略的所有技能。該校所提供的大資料課程既包括Coursera網站上的免費線上課程,也包括為期九個月的證書課程,此外還有博士專案。

“雖然結果還有待觀察,”他說,“但我們仍然認為,旨在培養資料科學家的課程是可行的。”他又補充道:“僱主希望招聘的是全能人才。”

 

Claire Cain Miller是《紐約時報》科技記者