大資料不只是要處理很多的數字,還得要通過這些數字建立模型、深入挖掘,並且尋找那些有可能改變企業運營方式的資訊。以下謹為大家介紹20位大資料領域的頂尖人才。

Pinterest資料科學家安德莉亞•伯班克

        Pinterest是一家以圖片為主的社交網路,資料科學家安德莉亞•伯班克主要負責該公司的A/B測試,評估公司網站、APP的外觀或功能變化會對它的6000萬全球使用者產生哪些影響。如果Pinterest網站上的某個小模組讓你想邀請朋友也來玩一玩,或是某一封它發來的推薦郵件讓你關注了更多話題,那麼這很可能就是伯班克團隊的那隻“看不見的手”起了作用。她在今年三月的一次行業會議上表示:“為了今後能為幾十億使用者提供服務,我們已經針對幾百萬使用者做了數百次試驗。”試驗還擴充到了Pinterest自身的運營上。伯班克最大的成就之一,就是給Pinterest的其他員工賦權,讓他們也能開展試驗。她表示:“以前只有一個故障點,但也只有一個知識點,現在不同了。”——Andrew Nusca

0xdata公司物理學家、黑客阿諾•康代爾

        阿諾•康代爾從小就生長在一個科研氛圍濃厚的環境中。他出生於瑞士一個叫做下錫根塔爾的小村子,這個村子恰好位於擁有歐洲頂級粒子加速實驗室的保羅謝爾學院(Paul Scherrer Institute)和歐洲大陸最著名的科技院校蘇黎士聯邦理工學院(ETH Zürich)之間。在學習粒子物理學和超級計算機學期間,康代爾曾經在電腦上建立過宇宙的模型。後來他搬到美國加利福尼亞州,在史丹佛大學直線加速器中心的全國加速實驗室中工作(SLAC National Accelerator Laboratory),後來又開始創業,成為Skytree公司的創始工程師,並且設計了幾套高效能的機器學習演算法。現在他是Oxdata公司h2o資料分析平臺的核心開發者,他開發的這個h2o平臺,被程式設計社群GitHub的成員譽為最優秀的開源Java機器學習專案,而且它還可以相容流行的統計程式語言——R語言。他在Oxdata公司的頭銜是“物理學家兼黑客”。——Robert Hackett

Hortonworks聯合創始人阿蘭•默西

        阿蘭•默西最早在雅虎公司(Yahoo)工作,現在已然用途極廣的開源儲存和處理軟體Hadoop在那時尚處於早期原型階段。默西的團隊的任務就是擴充套件Hadoop的功能,讓它用於雅虎的網頁搜尋。於是默西研發了一個名叫YARN的資源負載管理系統,它的作用大致相當於Hadoop的一個作業系統。默西表示:“第一版的Hadoop看起來就像還在用Notepad的Windows,但是我們真正想要的是能用Powerpoint、Word和Excel的Windows。”這正是YARN的魅力所在:它允許使用者向Hadoop中插入多種應用以儲存各類資訊。默西表示:“我家裡有兩個孩子,但YARN就像是我的第三個孩子。”——Robert Hackett

NuoDB執行長巴里•莫里斯

        很多科技公司都想發起一場技術革命,但是很少能獲得上一波技術革命領導者的支援。馬薩諸塞州劍橋市的NuoDB公司卻一舉網羅了上一波資料庫革命“四大天王”的其中之三——Ingres公司前CEO加理•摩根泰勒、Sybase公司前CEO米切爾•克茲曼、Informix公司前CEO羅傑•斯普爾。只有最後一名“天王”,也就是甲骨文(Oracle)的CEO棄權了,但他也身在投資人之列。這麼一家名不見經傳的公司何以有這麼大的號召力?因為NuoDB的技術解決了一個多年來被行業視為“聖盃”的問題:如何讓一個資料庫在多個伺服器上執行。“關鍵在於用更多的機器,而不是更大的機器。”該公司CEO巴里•莫里斯表示:“那個問題聽起來雖然簡單,但一直沒得到解決。”DuoDB公司成立於2010年,現在這家公司已經簽下了一個大客戶——歐洲第二大軟體廠商達索系統公司(Dassault Systèmes)。另外莫里斯認為,公司正在飛速朝著一個“新的聚焦點”邁進。他認為DuoDB將走上舞臺的中央。“它的意義不在於資料的規模或執行速度,而在於形成一種資料導向型模式。持續改進的能力才是它的革命性所在。”——Andrew Nusca

Beats Music 公司大資料工程總監布萊恩•羅格斯基

        要想讓布萊恩•羅格斯基談談他在Beats Music公司的工作細節真是不容易,不過Beats Music剛被蘋果(Apple)收購,考慮到蘋果一向神神祕祕的作風,倒也沒什麼可奇怪的。(這筆交易於今年五月宣佈,上週五完成。)不過羅格斯基依然是三句話不離本行。他表示,現在企業都有興趣更深入地進行實時資料分析,而且也有興趣在企業內部加大資料的分享力度。另外很多公司也想利用大資料提高APP的個性化體驗。那麼羅格斯基打算如何在Beats公司跟上這股潮流呢?他表示:“你必須自己理解其中的奧妙。由於我目前的角色,我對這個問題不能說太多,現在還是說說大趨勢吧。”——Robert Hackett

雅虎實驗室研究員達尼埃爾•凱西亞

        小時候,達尼埃爾•凱西亞最想當一名警察,為此他還買了一輛玩具摩托車。不過現在在雅虎實驗室(Yahoo Labs),他對城市的瞭解絕對細緻入微——儘管只是在數碼層面上。凱西亞擁有電腦科學博士學位和麻省理工學院(MIT)城市研究專業的博士後學位。目前他主要進行廣域的城市研究。比如他構建了一款遊戲,問人們喜歡哪種城市景觀,然後把評分放在Facebook上進行病毒式傳播。凱西亞會對結果進行研究,以確定人們喜歡或不喜歡哪種城市景觀,以便最終設計出更好、更漂亮的城市。他認為:“電腦科學就是一門構建工具的學問。我想做一些新的事情,一些能對現實造成影響的事。而全球有超過一半的人口都住在城市裡。”——Shalene Gupta

微軟研究院計算生態與環境科學小組負責人德魯•帕維斯

        微軟(Microsoft)內部有一個叫做“比爾評論”(Bill Reviews)的保留節目,也就是員工們可以在創始人兼董事長比爾•蓋茨面前提出自己的創意。當微軟研究院劍橋實驗室(Microsoft Research’s Cambridge Labs)的計算機學負責人史蒂夫•艾默特在一次“比爾評論”中提出,要由劍橋實驗室出資,在公司內部建立一個生態學研究小組時,“那真是一次糟糕得出名的會議。”——時任普林斯頓大學(Princeton University)生態學家的德魯•帕維斯如是說。但是最後比爾•蓋茨改變了主意,很快微軟聘請了帕維斯作為這個小組的領頭人,負責建立地球生態系統的預測模型。自從微軟的“藍天”研究部門成立後,帕維斯已經帶領科研團隊開發了一個模擬地球所有生命的“馬丁利模型”。這個專案可謂雄心勃勃,雖然有些“唐吉訶德”色彩,但它的部分成果說不定最終也能應用於實際。帕維斯表示:“國民經濟中發生的每一件事,都可以放在一定的環境因素中考量。”他隨口道出全世介面臨的幾大最嚴重的挑戰,包括人口老齡化、癌症、食品安全、氣候變化和替代能源等問題。對於生態學和生物學,帕維斯補充道:“這些東西將成為21世紀經濟的核心驅動力。”

IBM沃森與認知烹飪小組高階軟體工程師弗羅裡安•皮內爾

        自從IBM的“智慧”電腦系統沃森(Watson)在電視智力節目Jeopardy中戰勝了人類對手之後,IBM還想試試它到底能把智慧計算的邊界推到多遠。最近IBM決定讓沃森進軍烹飪界。作為一名受過專業訓練的廚師,弗羅裡安•皮內爾也是IBM的“認知烹飪”團隊的一員。皮內爾表示:“我們之所以把重點放在美食上,是因為美食是大家都關心的東西,而且我們可以很容易地創造出原型產品。現在我能把對食物和電腦科學的熱情融合在一起,這令我大喜過望。”這個團隊首先從各種食材和調料著手,但是他們研發的各種食物的組合呈指數級增長,催生出了大量潛在的美食食譜。比如在今年德州奧斯汀的SxSW大會上,沃森系統就在IBM的美食卡車上發明了一種澳洲巧克力捲餅,食材包括巧克力、牛肉糜、青豆和大豆。聽起來雖然是一道很難吃的菜,不過皮內爾卻表示:“它大獲成功,非常好吃。所以我們的目的就是要啟發使用者,幫助他們開發他們自己永遠想不到的美食配方。”——Robert Hackett

Cloudera公司首席科學家,西奈山醫院基因與基因組學助理教授漢默巴切

        身為西奈山醫院(Mount Sinai Hospital)基因與基因組學的助理教授,傑夫•漢默巴切雖然沒有這個專業的博士學位,但豐富的經驗讓他絕對稱職。他曾是Facebook最優秀的資料學家之一,後來他放棄了被廣告滲透到各個角落的社交媒體業,成了Cloudera公司的首席科學家。Cloudera是一家基於Apache Hadoop平臺的企業軟體供應商。現在漢默巴切又與西奈山醫院的基因與基因組學負責人埃裡克•沙特合作,試圖把大資料分析帶入到醫療保健領域。沙特指出:“他正在定義一個新的領域,以後這個領域將成為一門會發放博士學位的學問。現在沒有任何一門學科在教授他所做的事。”漢默巴切正在構建管理和運算人體健康資料所需要的基礎架構,以建立更好的醫學預測模型。沙特表示:“對於醫療業和醫療機構來說,現在正是他們開始啟用大資料分析引擎的時機。我們和傑夫這樣的人才合作,充分說明了醫學將來的走向。”——Robert Hackett

CloudFlare聯合創始人米歇爾•扎特琳

        如果說網際網路也有它自己的中央情報局,那麼這塊招牌可能要落到CloudFlare公司身上。這家舊金山的公司監控著全球5%的網路流量。公司創始人之一米歇爾•扎特琳2009年在哈佛大學(Harvard University)遇到了另外兩個合作伙伴——馬休•普林斯和李•霍洛維,並於同年創辦了這家公司。CloudFlare扮演了一個網站與惡意使用者之間的緩衝區的角色。如果CloudFlare判定一名使用者為友好使用者,它就會加快他所享受的服務的速度。如果它判定一名使用者為垃圾郵件傳送者或者機器人程式,它就會降低他的服務速度,或者是要求對方輸入驗證碼。扎特琳表示:“十年以前,我知道我想成為一個大而重要的團隊的一份子,但當時我並不確切地知道這意味著什麼。但是現在我感到很幸運,因為我找到了CloudFlare。我想象不出還有比幫助客戶更好地經營他們的業務更好的事了。”——Shalene Gupta

Jawbone資料副總裁莫妮卡•羅加蒂

        在Jawbone公司,莫妮卡•羅加蒂有兩個職責。首先是弄清楚該公司的Up智慧腕錶收集的資料都代表了什麼。其次,構建以智慧方式使用這些資料的新產品。羅加蒂表示:“我們發現了關於我們如何睡覺、活動和進食的許多新的資訊,它們都是之前無法發現的。以前我們只能對100個人進行睡眠研究,但是現在我們可以研究10萬個人的睡眠資訊。”也就是說,羅加蒂和她的團隊能夠了解人們為什麼會失眠。比如華盛頓的居民可能會因為一次總統就職典禮而興奮難眠;伊斯坦布林的居民可能會因為中東爆發的抗議而睡不著覺;篤信天主教的羅德島居民可能因為教皇的辭職而失眠——然後,該公司可以把這些資訊反饋到Up智慧腕錶上,並調整他們的行為。羅加蒂指出:“我們充分地利用了這些資料反映出的見解,並且利用它們來鼓勵人們保持最佳水平。”——Andrew Nusca

施樂歐洲研究中心高階研究員歐諾•佐伊特

        孩提時代,歐諾•佐伊特夢想著成為一名樂高積木的設計師。8歲時,他擁有了人生中的第一臺電腦,它點燃了一個男孩對人工智慧的興趣。如今佐伊特已經進入施樂歐洲實驗室(Xerox Labs Europe)工作,他研究的重點是如何緩解洛杉磯的交通擁堵。佐伊特表示:“我們對停車問題了解的不多,因為它需要大量時間來觀察。”為此,佐伊特的團隊在全市各處的停車場安裝了大量感測器。感測器收集的資訊會反饋到一款智慧手機應用上,這樣司機就可以隨時瞭解哪些停車場已經停滿了,哪些停車場的車位還空著。更妙的是,城市可以根據這些資料調節這些停車場的停車費,以降低高度擁堵地區的車流量。自從這個專案在2012年問世以來,洛杉磯的交通擁堵已經緩解了10%。——Shalene Gupta

Eventbrite公司工程副總裁帕特里克•普爾斯

        帕特里克•普爾斯曾經告別科技業整整五年,這期間他轉行做了一名職業撲克玩家。不過職業撲克市場在2010年萎縮得非常厲害,於是他決定重返科技行業。他並不為他的選擇後悔,他說:“分析資料跟玩撲克很像。你玩了幾千手牌,你也瞭解了人,你也處理了資料,而且你會留心尋找一些顯眼的東西。這些都是共通的。”在Eventbrite網路售票公司裡,普爾斯和他的團隊開了一個推薦系統,能夠根據使用者已經瀏覽的內容,向他們推薦他們可能感興趣的大型活動。這個系統的反響很不錯,現在每週大約有100萬人在Eventbrite上購票,其中近半數都是回頭客。普爾斯的下個專案,是要想出怎樣才能最好地賣掉需要預訂座位的活動的門票。

Dropbox首席科學家西爾瓦諾斯•李

        有“神童”之稱的西爾瓦諾斯•李只花了短短兩年時間,就從史丹佛大學獲得了電腦科學與數學的雙學位。他在畢業後直接進入了金融行業,但是科技業的誘惑還是太強了,於是他在2012年加盟Dropbox。憑藉其商業背景和科技知識,他成立了一支團隊,專門從事資料學研究。他曾經負責過一個叫做Project Harmony的通訊軟體,它使Dropbox的使用者可以實時檢視其他使用者對共享文件的修改,並可與其進行討論。另一個跟銷售有關的專案是檢視是否有來自同一家公司的員工在同時使用Dropbox,如果有就為他們提供超值套餐。西爾瓦諾斯•李的老闆王晨立(音譯)表示:“他的背景橫跨科技、數學和商業實務,非常難得。這使他的資料科學研究鶴立雞群。”——Shalene Gupta

Airbnb軟體工程師蘇拉比•古普塔

        蘇拉比•古普塔非常喜歡旅行,經常替親朋好友規劃旅行線路。作為史丹佛大學(Stanford University)電腦科學專業畢業的研究生,她對摘要的藝術非常著迷——僅僅短短數語就能盡得其要,而無需閱讀整篇文字。早先古普塔在谷歌(Google)工作期間就曾研究過租房服務公司Airbnb。她對Airbnb的資料所能提供的可能性很感興趣,於是她主動聯絡了Airbnb跳槽到這家公司。短短四個月後,她就顯著改進了Airbnb的搜尋引擎。現在古普塔正在試圖壓縮Airbnb的所有列表,建立摘要,以便使用者可以迅速瞭解不同城市的風情。她表示:“總的目標就是,當人們旅行時,我們怎樣把他們吸引到Airbnb來?當他們想去旅行的時候,我們怎樣讓他們獲得我們的資訊?”——Shalene Gupta

美國運通GMS IM平臺與大資料專案副總裁斯瓦蒂•辛格

        斯瓦蒂•辛格的技術背景幾乎無懈可擊,其中包括從杜克大學(Duke University)獲得的機器學習博士學位。但她的性格卻熱衷經商。她是美國運通(American Express)MyOffers服務背後的主要智囊,這項服務旨在讓美國運通的會員在需要的時候獲得他們想要的東西。比如現在是中午,你又恰好想吃墨西哥菜,美國運通就會送你一張附近墨西哥餐廳的優惠券。她負責的另一個工具可以讓商家比較自己的年度表現。她的老闆塞斯特里•杜爾瓦蘇拉表示:“她有很強的技術背景,但是她也可以像一個領導者一樣,和其他領導談事情。每次我們討論資料的時候,她都在場。”——Shalene Gupta

Adobe Digital Index首席分析師塔瑪拉•加夫尼

        塔瑪拉•加夫尼利用資料來預測未來。在Adobe數字系統公司,她的團隊負責從使用Adobe雲服務的使用者那裡反饋的資料來預測各種問題,比如哪部片子會獲得奧斯卡獎,哪部大片會賣座,在冬季購物季有多少人會在網上購物等等。她的預測也的確非常了不起,在去年的聖誕購物季,加夫尼團隊的預測只比實際情況低了1個百分點。她的經理朱莉•麥肯蒂表示:“她對科技的理解再加上她對人的行為的興趣,使她非常與眾不同。她好奇心很強,喜歡對資料劃分模式、追蹤線索,對事情的演變提出假設。”加夫尼的下一個專案,是對各種移動購物應用進行預測。——Shalene Gupta

Rent the Runway首席分析官維賈伊•蘇伯拉馬尼安

        第一眼看去,在這樣一家經營時尚業務的公司裡,維賈•蘇伯拉馬尼安的工作貌似並不光鮮。不過作為時裝租賃服務Rent the Runway的首席分析官,恐怕很少有人對女性時尚潮流的理解比他更深了。2010年,他加入公司不久後,便構建了一個評估模型,能夠估算漏掉的需求、產品壽命以及庫存服飾的使用場合。由於公司每個季度都要從時裝設計師那裡購入成卡車的時裝首飾租給顧客,因此維賈的模型可以說給公司省了一大筆錢。他表示:“如果你把三個資料來源放在一起,你就可以建立一個體現購物習慣的模型框架。它告訴我們應該去找哪種風格的衣服,才最有可能讓我們穿出明星範。”——當然還有儘量要避免哪種搭配。維賈的下一個專案是整合Unlimited反饋的新型資料——Unlimited是該公司為了進軍日常便服領域而推出的一個專案。維賈表示:“我們的經典模型都圍繞著你要去的重大場合。你可能穿衣比較前衛,但如果你出席正式場合,你自己的穿衣風格就不重要了,重要的是適應場合。而Unlimited則是理解使用者穿衣風格的開始。”——Andrew Nusca

ShareThis資料科學副總裁曲豔

        很多人可能很難相信,曲豔(音譯)的工作影響了95%的美國讀者。曲豔在社交網站公司ShareThis開發了一個叫做“社交質量指數”(Social Quality Index)的指標,可以衡量圍繞一定網路內容的社交活動,並幫助廣告主和出版商鎖定目標群體。曲豔表示:“技術方面並不難,難的是怎樣發現一個商業問題,然後把技術應用上去。”曲豔在卡耐基梅隆大學(Carnegie Mellon University)獲得了自然語言處理專業博士學位。在進入ShareThis工作前,她還曾領導過美國線上(AOL)的Advertising.com的Advance Research研究團隊。現在,她很喜歡迎接行動電話帶來的挑戰,而且手機也不允許網站植入cookies來確認重複訪客。這些都需要曲豔收集更多的資料。——Shalene Gupta

Data Collective公司管理合夥人扎卡里•博格

        早在2011年的時候,扎卡里•博格與馬特•奧克多就在舊金山灣區成立了一家風投公司,專門關注大資料領域的創業,這種眼光在當時無疑是非同一般的。從那時起,這家公司的業務也隨著大資料的浪潮而水漲船高。博格表示:“成本曲線很快就被越過了。急速下降的成本使這些新方法得以衝擊那些舊的行業。”今年,該公司又推出了自己的第三支基金,使它的總融資額達到將近2.5億美元。該公司把賭注押在了短期借貸創業公司LendUp,以及記憶體資料庫服務MemSQL等新銳公司上。據說MemSQL要比市面上現有的記憶體資料庫便宜得多也快得多。博格表示:“科技為廣大的市場和行業開放了前所未有的投資機會。我們的一個觀點是,每個部門和行業都會被科技徹底擾亂,真是令人興奮。”——Andrew Nusca