希拉蕊·梅森是Bitly的首席科學家,一個基於網路的“打撈”工具,允許使用者儲存、分享和發現新的東西在網上。為此,Bitly跟蹤社交媒體資料與焦點和強度的一個科學家試圖揭開人類基因組。換句話說,他們資料科學家。但希拉蕊·梅森,Bitly的首席科學家,稱之為“令人敬畏的書呆子”——精通技術的科學型別不僅知道如何挖掘黃金從一個不斷擴大的資訊,但也知道宇宙跟正常人類對他們所發現的。瑞士信貸坐下來和梅森來找出這些人是誰,他們實際做的。
瑞士信貸:哈佛商業評論稱為資料科學家最性感的21世紀的工作。你叫他們可怕的書呆子。那麼什麼是他們做什麼?
希拉蕊·梅森:資料科學家是有人誰能理解業務問題,誰能真正做一個分析,告知問題的解決方案,然後它成功地交流。但他們這麼做是通過使用一個技能,以前從未結合成一個職業。
基本技能是技術能力獲得資料的系統和流程,也許在其上建造基礎設施,這是工程和黑客。那麼你需要做一個分析,這是統計、線性代數和概率論的數學側。然後最後一件是社會科學的結合與好奇和理解業務,提出正確的問題,將其轉化為你的數學和工程分析,然後翻譯成一些你可以跟其他人類有關。
CS:你在哪裡找到這些人嗎?是大學教學資料科學?
HM:我沒有僱傭任何一個有資料科學碩士學位,因為專案剛剛開始。資料來自所有不同領域的科學家,包括很多學術科學家離開學術界,誰可以被訓練來溝通。我是一個電腦科學家,和我一起工作的一個天體物理學家、物理學家、電腦科學家和數學家的另一個。但是我有同行在其他企業和大學來它從政治學和心理學。它是這樣一個年輕的領域,人們已經抵達它從許多不同的方向
CS:它已經快成為一個精英的位置在一個健康的它的就業市場。有近500萬年,僅在美國工作。是供應滿足需求?
HM:很難找到任何有用的經驗的人。很多公司招聘資料科學家正在招聘他們的第一人,這意味著他們沒有一個基礎設施為指導或培養他們在內部。和人們連一點點的經驗是非常難。
CS:但是我已經讀到資料新手參加課程或兩個,然後去解決複雜的問題貼在網上。也許有人會說資料科學可能比你認為的要容易。
HM:我有點懷疑的。大公司可以包演算法需要解決的問題,把一個挑戰線上。但這是一個非常定義誤差度量你想優化。就像那個小扳手你獲得從宜家在你的工具箱裡。當你需要它,它是完美的工具。但大多數時間它不是最好的工具來解決資料問題。資料科學家的工作就是知道什麼問題是在第一個地方。
CS:那麼誰需要一個資料科學家嗎?
HM:你需要一個資料科學家當你認為你會比你做出更好的決策都是基於現有的資料。帶我們做什麼在Bitly的。在過去,商人只會看自己的資料和使用自己的材料。但現在我們知道每個人都是在網際網路上關注,並且您可以使用,告知你的實踐。和你可以構建產品,就不可能在。我通常描述整件事是:第一個層次是使用資料來做出更好的決定你現在的業務。2級是把你的業務在一個方向,是永遠不可能沒有資料。
CS:哪裡資料首席坐在公司圖騰柱嗎?
HM:我的朋友·d·j·帕蒂爾,誰實際上參與了哈佛的文章你提到在一開始,有最好的方式來描述這個:你應該考慮你的首席資料科學家作為你的“斯波克在橋上。“他不會發出訂單,但是當柯克船長必須做出一個決定,那是人他會轉向。
CS:你如何構造一個資料團隊?
HM:你有一堆碎片——資料倉儲,分析基礎設施和介面與其他群體,需要使用資料。所以資料團隊傾向於做許多不同的事情。他們做業務分析:健康是我的業務嗎?如果我做X,我賺更多的錢嗎?他們做的產品開發:這是什麼群使用者誰進我的產品在這個時候做的產品,這是什麼意思的設計嗎?他們修建諸如推薦演算法,搜尋引擎和垃圾郵件過濾器。和他們做了很多研究。
CS:當你需要時你為什麼不請來他們?
HM:僱傭承包商可以工作,但你真的需要可以吸收你的資料和系統的人並且知道如何回答問題。
CS:你儘量回到知道正確的問題。
HM:它不是你問的這種問題。真正回到遵循科學的方法:有一個理論,看看資料,看它是否證實你的理論,然後做出決定。所以我可以給你一個圖,但是我們可能有非常不同的故事,描述我們所看到的。圖和我們可能無法達成一致意見在一個解釋上,除非我們同意我們學習放在第一位。
CS:你怎樣說服你的CEO來搭配你的提議的方案解決企業問題的?
HM:關於資料很難與之爭論。