【譯Py】資料科學麵試終極指南(一)

呆鳥發表於2019-03-04
封面.png

原書地址:Springboard- Ultimate Guide to Data Science Interviews

原著作者:Roger Huang、Sri Kanajan

歡迎來我的簡書:呆鳥的譯Py胡言

# 目錄
* 譯序
* 前言
* 什麼是資料科學?
* 資料科學崗位
* 各類公司如何看待資料科學
  1. 開發資料產品的創業公司(200人及以下規模)
  2. 分析自有資料的創業公司(200人及以下規模)
  3. 分析自有資料的財富500強大中型公司
  4. 自有成熟資料團隊的大型科技公司

* 聘用資料科學家的行業
* 獲得資料科學麵試機會
* 通往資料科學麵試的九條途徑
  * 獲得面試機會的傳統途徑
    1. 官網招聘版塊與標準求職
    2. 第三方招聘公司
    3. 參加招聘會
  * 獲得面試機會的主動途徑
    4. 組織或參加資料科學活動
    5. 打造自己的文集
    6. 參與開源專案或開放資料專案
    7. 參加資料科學競賽
    8. 喝杯咖啡,資訊化約談
    9. 資料駭客鬆

* 與第三方招聘公司合作
* 如何提出求職申請
  * 簡歷 VS 領英
  * 求職信 VS 電子郵件
  * 請人推薦,讓人脈為你服務
  * 準備面試

* 面試內容
  1. 電話面試
  2. 家庭作業
  3. 招聘經理電話面試
  4. 招聘經理現場面試
  5. 技術挑戰
  6. 總監面試

* 資料科學崗位技能矩陣
* 資料科學崗位縱覽
* 資料科學麵試題
  * 行為試題
  * 數學試題
  * 統計學試題
  * 程式設計試題
  * 場景試題
  * 面試提示
* 招聘經理的想法
  * Will Kurt(Quick Sprout公司)訪談
  * Andrew Maguire (PMC/谷歌/Accenture) 訪談
  * Hirsto Gyoshev(MasterClass公司)訪談

* 求職者的成功經驗
* 結論面試後要做的7件事
  1. 面試後,寄出感謝信,保持跟進
  2. 列出對面試問題的想法,寄給他們
  3. 把工作成果/家庭作業寄給招聘公司
  4. 保持聯絡,正確的方式
  5. 利用人脈
  6. 招聘被拒,更要表現出專業性
  7. 不要放棄希望

* Offer流程
  * 處理Offer
  * 薪資談判
  * 上班前的準備

* 資料與資料
  * 名人名言
  * 核對清單
  * 模板
  * 術語庫
  * 資源

* 關於作者
複製程式碼

譯序

  翻譯這本小冊子的緣起,一方面是看的譯文書多了,英文書也多了,就不禁手癢、心癢,想看看自己能不能翻譯,能翻譯成什麼樣子;另一方面是學了一段資料科學,雖然寫不出原創文章,也編不出漂亮的程式碼,但也想以自己的微薄之力,為這個社群,為很多和我一樣努力向資料科學大門邁進的朋友做點貢獻,恰巧在Springboard的網站上看到這本指南,免費、公開下載,我想應該沒有什麼版權問題。

  本指南介紹了資料科學的定義、各個資料科學崗位的技能要求、不同行業與公司招聘資料科學人員的側重點、獲取資料科學麵試機會的途徑、資料科學麵試的詳細流程、資料科學麵試的試題種類與示例。為了更好地說明資料科學麵試,作者採訪了很多已經當上資料科學家的求職者,還有一些公司的資料科學主管,將他們的經驗和想法整理出來,將來自資料科學第一線的思想呈現給大家,最後還列出了大量的資料、文獻與資料,為求職者瞭解、應對資料科學麵試提供了充足的彈藥。

  本指南不僅能指導求職者應對資料科學麵試,也可以幫助國內各行各業需要招募資料科學人才的公司瞭解資料科學的招聘流程、招聘重點,推動國內公司優化資料探勘、資料分析、資料開發等資料科學體系的建立、健全,希望這次的翻譯能幫助面試桌兩邊的朋友更好地瞭解資料科學。

  本指南的作者之一Roger Huang是位華人,在此,感謝他不辭辛勞蒐集資料,採訪了諸多資料科學專家,給我們呈現了這麼一本完善的資料科學麵試指南;本次翻譯也得到了Roger的大力支援,幫我指點了不少翻譯中的疑難問題,還主動幫我聯絡Springboard公司的副總裁,獲得了他們對發表中文版翻譯的許可。在此,對Roger表示深深的感謝!

前言

  說實話,我們沒想到為Springboard編撰的《資料科學職業指南》會這麼火爆,幾天就有數千人訂閱。說明資料科學雖然備受追捧,但是大多數人還是不知道該怎麼上手,畢竟有關這行的實用資料太少了,這樣的現實堅定了我們寫下去的決心。

  和很多朋友交流後,我們發現介紹入行資料科學的文章真是屈指可數,現有資料大多隻是個人經歷或面試題集錦,很難找到從海投簡歷一直講到勝任資料科學各崗位的系統性面試指南。

  我心目中的面試指南,要告訴大家面試桌兩邊的人都有什麼想法。舉薦求職者的第三方招聘公司、發放Offer的招聘經理,還有順利通關的求職者,他們都是我關注的物件,我要講述資料科學麵試裡各方人士的故事。為此,我和Sri Kanajan,紐約投行的資深資料科學家合著了本書

  Springboard培訓過數千名資料科學學員,建立了龐大、專業的社群,為我們採集第一手資料提供了獨特的優勢。

  採集本書資料的過程十分艱難,比資料科學麵試有過之而無不及。想當年,資料科學的領軍人物,美國首席資料科學家DJ Patil等了足足半年才拿到Offer。現如今,好多公司都把資料科學麵試搞得特別難,似乎只想招聘最專注、最專業的人才,有時候,就算這方面的高手都過不了關。當然啦,門檻越高,這一行的收入也越高。

  資料科學算得上是21世紀最性感的職業。資料科學家能帶來重大的社會影響,繪製世界貧困地圖、阻止疫情爆發、揭開Bansky的神祕身份,再加上一手預測三月瘋狂賽季裡籃球比分的絕活,資料科學家可不只是高收入、事業生活雙豐收,還能幹些真正了不起的大事

  編寫本書的目的是引導對資料科學感興趣的朋友找到資料科學工作。現在,一起來揭開成功通關資料科學麵試的奧祕,助你大展身手吧!

什麼是資料科學?

  開始資料科學麵試前,首先要理解這個詞的含義,然後還要搞明白資料科學都包括哪些工作內容。

美國首席資料科學家DJ Patil最先提出了資料科學這個概念。

  十年來,這一名詞一直飽受爭議,實幹家與學院派對於資料科學涵義的論辯屢見不鮮,更可怕的是,他們的理念和資料分析公司常用的理念也不一樣。只要一討論大資料與機器學習資料解決方案,就會發現新詞迭出,讓人應接不暇。

  每個公司對資料科學的涵義都有自己的理解,招聘經理的理解也各不相同,大家都喜歡根據自己的理解來招聘和麵試。資料科學定義隨著公司和崗位變來變去,定義不清使得資料科學麵試困難重重。

資料科學崗位

資料科學崗位劃分

  下面用一個簡單的資料科學專案說明資料科學的崗位。

  某資料科學團隊想效仿Yelp團隊利用深度學習技術識別圖片。

  每天上傳到Yelp的照片多達上百萬張,很難為每家飯店找到適合顯示的圖片。有時上傳的都是同類照片,要麼是食物,要麼是飯店外景,但是想全面評價一家飯店需要不同類別的圖片。

  這個團隊想利用機器學習分類照片,自動將照片納入指定的類別。要實現這個目的需要幫助計算機利用訓練集識別哪些照片是飯店外景,哪些照片只是食物。

  資料科學家負責搭建模型,讓機器建立不同圖片類別,要從使用者標註過的照片和照片標題的關鍵字裡提取所有相關的資料型別。這是個高階崗位,通常要全方位管理資料產品,搞定從演算法選擇到工程設計等方面的資料科學問題。

  資料工程師負責搭建系統,獲取並儲存所有圖片資料,實現資料科學家選定的演算法。這個崗位需要很強的技術實力,但是不需要深入理解演算法理論。

  資料分析師負責查詢資料、展示業務變化帶來的影響。使用者滿不滿意?最近的改版為Yelp帶來了多少流量?這些都是資料分析師要提出和解答的問題,此外,資料分析師還要和其它崗位的同事溝通資料分析結果。這是個入門級的崗位,資料科學新人或有一定技術能力的業務人員就可以勝任。

  後文還會提到更多資料科學崗位。現在只要知道這三個資料科學崗的面試不一樣就可以了,其實,大部分情況下,各個資料科學崗位的面試都不一樣。

各類公司如何看待資料科學

  不但資料科學各崗位的面試要求不一樣,各類公司對資料科學麵試的要求也不一樣。可以把公司大致劃分為4類:

1. 開發資料產品的創業公司(200人及以下規模)

  歡迎來到矽谷的心臟,創業公司是技術人員的浪漫國度,很多創業公司短期內就能取得驚人的成績。加入創業公司,要做好一人多職的心理準備,很多時候一個人要兼任三個資料科學崗位的工作,而且可能永遠也得不到想要的資源,加班加點,累死累活更是家常便飯。

  這類公司的招聘門檻大多高的嚇人。不管是為其它公司提供資料優化的平臺,還是用機器學習分析資料集,這類公司都希望求職者具有很高的水平,他們對資料處理技能的要求遠高於那些只處理內部資料的公司。這類公司的創始人大多都是資料科學精英,或者曾經當過大型資料科學團隊的領導。他們招聘的都是頂級人才,要有豐富的從業經驗、突出的發展潛力和強大的自我推動力。加入這樣的公司可能是這輩子最好的學習機會,不過,也要做好面對資料科學頂尖挑戰的心理準備。

公司示例:Looker、Mode Analytics與RJMetrics。

崗位例項:資料分析師(Looker),高階分析師(Mode Analytics)。


高階分析師

  Mode是一家為分析師服務的公司,我們的產品可以讓分析師的工作效率更高、效果更好。我們的目標是為各行各業的分析師提供教育與激勵服務。

  資料分析團隊是實現這一目標的核心力量,身負兩大使命。第一,服務於產品、營銷和銷售團隊,協助他們制定更科學的決策。第二,為希望實現資料驅動轉型的公司或分析師提供開源資料和分析服務。

崗位職責

  • 協同相關部門制定資料驅動的產品、營銷與銷售決策;
  • 定義核心指標,並進行跟蹤;
  • 根據資料分析結果,為Mode找尋新的贏利點;
  • 與Mode社群分享工作成果;

我們心目中的人選

  • 善於溝通的演說家,不能只會編制華麗的可檢視,還要能詮釋資料內涵和對業務的影響;
  • 創意無限的思想家,善於提出問題、解決問題;
  • 技術過硬的開發者,精通SQL、R或Python、D3等視覺化工具,具有開發資料工具和資料管道經驗者優先;
  • 具有資料分析專業背景。

公司規模:143名員工使用領英(11-50人的公司規模)

崗位解讀:本崗位的重點是溝通能力、資料庫查詢能力、利用程式語言實現資料視覺化的能力,說明這是個業務崗,與相關團隊溝通資料分析結果是必備能力。

2. 分析自有資料的創業公司(200人及以下規模)

  這類創業公司只分析自有資料,不向其它公司銷售資料產品。因此,招聘門檻比前一類公司略低。不過分析自有資料對創業公司一樣至關重要,因此這類公司的招聘門檻往往也會很高。

  IT類創業公司裡技術天才很多,不過能為業務與技術搭橋的人才也不可或缺,要是公司裡各部門對理解和使用資料各執己見,這樣的人才就更重要了。在資料驅動型公司工作,要做好吃苦耐勞的心理準備,還要能不斷擴充思路,為公司各部門採集資料、使用資料推薦新工具,制定新流程。

  在處理自有資料的公司工作,非常考驗資料分析師的水平,要在公司裡持續推廣、強化資料驅動型的企業文化。趕緊提高自己的領導能力與溝通技巧吧!

  還有,B2B與B2C創業公司的資料問題也不一樣。B2B是商對商,將軟體產品直接賣給其它公司,Salesforce就是其一。B2C則是服務於廣大消費者,比如亞馬遜。B2B公司的資料量一般不大,但特別在意資料細節與資料特徵。這類公司的客戶主要是企業客戶,數量不多,但都很重要,因為每個客戶都會帶來鉅額收入。B2C公司的客戶量極大,資料問題主要是資料規模龐大,過度關注消費者個體會分散其對消費者群體的注意力。B2B公司可能只有1000個客戶,但每個客戶每月可能會消費上千美元,而B2C公司可能有100000個使用者,但每個使用者每月能有1美元的收益就不錯了。

  求職者一定要深入瞭解面試的公司及其資料問題,做足功課,確認能在該公司滿懷激情地工作,具備的專業技能最好也要和該公司的崗位職責相匹配。

公司示例:Springboard、Branch、Rocksbox、Masterclass與Sprig

崗位例項:Branch公司 首席資料科學家,Rocksbox公司 資料(研究)科學家,Masterclass公司 資料科學家等。


資料科學家(決策科學家)

Masterclass

崗位職責

公司簡介

  Masterclass致力於讓來自世界各地的朋友都能獲得最好的線上教育。演員為什麼感情這麼豐富?運動員怎麼能抵抗地心引力?暢銷書作者又是如何煉成的?我們的課程將對這些問題為您一一解密。作為我們的學員,您可以隨時隨地學習線上課程。至於那些天才寶寶,您可有福了,可以享受每節課一次免費試聽的優惠待遇。

  我們是風投提供資金支援的創業公司,目前正處於高速發展期。公司位於舊金山,現已聘請各行各業的專家錄製了大量線上課程,今後還有更多課程持續上線。2015年起,我們開始搭建自己的資料團隊,現在就申請加入我們吧!

我們心目中的人選

  • 熱愛分析。不管是統計分析、預測模型、使用者調研、定性研究,還是商務智慧或業務分析,這些分析領域都要有所涉獵。我們希望你能熱愛資料專案涉及的各種分析工作;
  • 實用主義。成果導向、積極主動、動作迅速、無懼荊棘、高屋建瓴、主次分明。必要時可以在短時間內提供足夠好的解決方案;
  • 科學思維。能深入鑽研問題,提煉出可用於商務實戰的假設推理;
  • 善於交往。具有豐富的溝通技巧,能夠描述各類業務夥伴提出的模型、邏輯和含義;
  • 樂於學習。快速上手新工具與新技能,能打破瓶頸,推動專案開展;
  • 具有敏銳的商業洞察力、產品意識及系統思維。

公司規模:37名員工使用領英(11-50人的公司規模)

崗位解讀:尋找樂於鑽研問題的通才,能對各種資料分析結果進行溝通。說明這是個多面手型的資料科學崗位。勝任這個崗位需要有積極主動的工作態度,還要有創業精神。

3. 分析自有資料的財富500強大中型公司

  世界級的大公司深知使用自有資料的重要性。不少公司已經組建了強大的資料科學團隊,並提供充足的資金支援,使其安心開展資料科學工作。這些資料團隊有點像大公司內部的創業公司,幫助公司將資料轉化為商務洞察結果。還有很多公司意識到資料對保持競爭力的重要性,為此不惜招募整個資料科學團隊。利用好自身優勢,說不定就能輕鬆通過這些知名大公司的資料科學麵試。

  雖然這些公司的企業文化已經成形,甚至還有官僚作風,多多少少會給創新帶來更多困難,但擁有百萬客戶資料可以為資料科學帶來無限可能。以沃爾瑪的採購資料為例,這可是百萬量級的資料,分析結果會影響千萬人的生活。

  雖然這類公司一般不會研發尖端資料科學解決方案,但處理他們的資料集依然是一種挑戰,和他們的精英員工一同工作,也能讓你受益匪淺。

公司例項:沃爾瑪、JP摩根、摩根斯坦利、可口可樂、第一資本

崗位示例:摩根斯坦利 資料科學家與建模師 ,第一資本 資料工程師


資料工程師

職位ID:R5046

釋出日期:2016年6月16日

工作所在地:弗吉尼亞州,麥克林市

  第一資本是業內領先的高科技資訊科技公司。在公司創始人、董事長與CEO,Richard Fairbank的引領下,多年以來,我們一直努力為客戶提供獨創、精簡和人性的銀行服務,我們以幫助客戶取得成功為使命,客戶的成功就是我們的成功,客戶的滿意就是我們的標準。

  在共同價值觀的指導下,我們視合作與開放為核心價值,相信快人一步的創新、同心協力的團隊,只要互相扶持,以做正確的事情為準則,必能創造卓越的成就。我們的合夥人為客戶服務盡心盡力,全力協助客戶達成目標、實現夢想,共同為把銀行業變得更好而努力。

我們心目中的人選

  想用資料引爆軟體的能量嗎?開發過引以為豪的應用嗎?喜歡優雅的資料解決方案嗎?第一資本正在尋求一位資深資料工程師,能夠開發語言優雅、擴充套件性強的資料解決方案,通過內外部客戶觸點,改變業界遊戲規則,提交使用者體驗分析成果。
  作為引領下一波新浪潮的銀行客戶團隊成員,您將領導整個團隊不斷完善第一資本的生態系統,最終建立技術為王的企業文化。您的職責涉及引入Kafka訊息佇列技術,落實Hadoop、Dynamo、Redshift、Cassandra、Mongo等大資料解決方案、實現API、微服務及分散式處理等。


公司規模: 超過30,000名員工使用領英(10,000+人的公司規模)

崗位解讀:關注大資料工具,說明這是個非常專業的崗位,需要掌控第一資本龐大的資料資源。

4. 自有成熟資料團隊的大型科技公司

  大型科技公司也在不斷孵化成長,他們對資料的痴迷源於當年創業公司的初心,只不過他們的資料規模已經達到甚至超過了百萬量級。優步、Airbnb、Facebook和谷歌等世界級大公司有著業界頂尖精英領導的技術團隊,這類公司的資料科學人才專業性極高,可以用最狂野的革新思想應對最前沿的資料問題。

  如果你渴望挑戰、嚮往處理大規模資料,一定要加入這些頂級公司。雖然在這裡你的優勢不如在創業公司明顯,但是這些公司福利好、薪資高、團隊成員極其優秀 — 就算將來想換工作,這裡的工作履歷也能讓你的簡歷高人一等。

公司例項:Facebook、谷歌、Airbnb
崗位示例:Oculus 資料分析師,Airbnb 機器學習資料分析師


資料與分析

資料科學家、資料分析師(Oculus)

  Facebook對促進世界溝通與共享做出了巨大的貢獻,過去的十年裡,我們的產品改變了整個世界的溝通方式。我們在全球超過五十個國家設立了分公司,十幾億人使用我們的產品與服務,在Facebook工作為您提供了無限的可能。Facebook對促進世界溝通與共享做出了巨大的貢獻,過去的十年裡,我們的產品改變了整個世界的溝通方式。我們在全球超過五十個國家設立了分公司,十幾億人使用我們的產品與服務,在Facebook工作為您提供了無限的可能。

  我們的子公司Oculus一直在尋覓既熱衷於虛擬現實,還能驅動資料化業務決策的資料產品科學家。在這裡,您可以操控世界上最複雜的資料集、使用最前沿的技術,在日常工作中,您的洞察結果將會變為影響整個世界的產品。理想的求職者要有量化分析與技術背景,具有操作大規模資料集和資料驅動決策的經驗。應當關注結果、積極主動、能夠使用資料分析技術帶動產品理研發理念、促進產品開發,最終推出成功的產品。


公司規模:16,715名員工使用領英(10,000+人的公司規模)

崗位解讀:本崗位指出求職者應該是敢於創新的全面型人才,屬於開放式資料科學崗,招聘方希望求職者能推動新專案的開展,自始至終引導團隊開展工作。

相關文章