標籤:資料預處理、資料科學、資料視覺化、招聘、Jupyter、機器學習
原文作者:John Sullivan,資料科學部落格DataOptimal的創始人,可以通過 @DataOptimal在Twitter上與他聯絡。
原文地址:5 Data Science Projects That Will Get You Hired in 2018
歡迎來我的簡書:呆鳥的譯Py胡言
看了不少天善智慧^1的視訊課,讀了一堆資料科學的書,下一步你打算怎麼辦?
找個資料科學的工作不容易,不過我有個好主意能幫你找工作,這就是打造你自己的作品集,利用作品集展示你學到的技能,讓未來的老闆知道你有多大本事。
你可以把這5個資料科學專案放到作品集裡,以此說明自己的能力:
- 資料清洗
資料科學家往往要耗費高達80%的時間來清理新專案的資料,這是資料科學團隊最大的痛點。如果能告訴他們你擁有豐富的資料清理經驗,你的價值馬上就能體現出來了。現在,找一些需要清理的資料集,建立一個資料清洗專案,開始資料清理吧。
用Python的話,Pandas絕對是首選,如果用的是R,可以使用dplyr這個包。記得要表現出以下幾項技能:
- 匯入資料;
- 合併多個資料集;
- 檢測缺失值;
- 檢測異常值;
- 插入缺失值;
- 資料質量驗證。
- 探索性資料分析
資料科學的另一項重要工作是探索性資料分析(EDA,Exploratory Data Analysis ),它是提出問題、使用視覺化方法研究問題的過程。探索性資料分析可以讓分析師通過資料得出結論,進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果,也可以是分析季節因素對銷售趨勢的影響。一般來說,探索性資料分析會帶來一些讓人意想不到的發現。
Python使用者可以使用Pandas和Matplotlib(譯註:強烈推薦國內使用者使用鍵冬同學的**PyEcharts**,互動式的視覺化圖,非常好用!)這兩個庫進行探索性資料分析。R使用者可以使用ggplot2這個包,也非常實用。探索性資料分析這個專案要展示出如下幾方面的技能:
- 能夠提出探索性的問題;
- 能夠識別趨勢;
- 能夠識別變數的共變性(covariation);
- 能夠使用視覺化(散點圖、直方圖,箱須圖等)有效地溝通分析結果。
- 互動式資料視覺化
互動式資料視覺化包括使用Dashboard這樣的工具。資料科學團隊和終端業務使用者都喜歡使用這些工具。資料科學團隊可以使用Dashboard進行協作,一起開展資料分析工作。更重要的是,Dashboard為終端業務使用者提供了互動式的工具,讓他們把精力放在戰略目標上,而不用關注過多的技術細節。很多時候,資料科學團隊提交給使用者的可交付成果都是以Dashboard這種形式體現的。
Python使用者可以使用Bokeh和Plotly,這兩個庫都是編制Dashboard的利器。R使用者則必選RStudio的Shiny包。Dashboard的專案一定要突出以下這些重要的技能。
- 列出客戶需求相關的指標;
- 提取有用的特徵;
- 使用有邏輯的佈局,比如易於瀏覽的“F模式”;
- 建立最優的重新整理率;
- 生成報告或其它自動化的操作。
- 機器學習
機器學習專案是你的作品集裡另一項非常重要的內容。在你關掉這篇文章,開始構建深度學習專案前,不要著急,我們們先花一分鐘的時間回顧點兒基礎概念,就算要建立一個特別複雜的機器學習模型,也得先從基礎做起。我建議從線性迴歸與邏輯斯蒂迴歸做起,和高管溝通時,解釋這些模型也會相對容易一點。這個專案的重點應該是突出專案對業務的影響,比如客戶流失、欺詐監測,或貸款拖欠這些內容。提醒一下,別再用預測鳶尾花型別這樣的例子了,最好找些實用的資料專案。
Python使用者可以用 Scikit-learn這個機器學習庫,R使用者可以使用Caret這個包。機器學習專案要傳達給讀者你具有以下技能:
- 能夠說明選擇某個機器學習模型的原因;
- 能夠避免過擬合,將資料分割為訓練集與測試集(K折交叉驗證);
- 能夠選擇正確的評估指標(AUC~Area Under Curve, 調整R方~Adj-R^2^, 混淆矩陣~confusion matrix);
- 能夠開展特徵工程與選擇的能力;
- 能夠進行超引數調優。
- 溝通
溝通對於資料科學的重要性比你想的要大得多,能否有效地溝通、交流資料分析結果是區分牛X資料科學家和普通資料科學家的標準。不管你做的模型多花哨,如果不能給同事或客戶講清楚,不能讓他們理解,就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具,你可以嘗試把機器學習專案改造成幻燈片,還可以使用Jupyter Notebook或RMarkdown輔助溝通。
記住,首先要搞清楚目標受眾是誰,給公司高管做彙報和給機器學習專家做演講完全是兩碼事兒。注意要突出以下這些能力:
- 搞清楚你的目標受眾是誰;
- 展示視覺化圖;
- 幻燈片要清爽,不要塞進去太多資訊;
- 陳述流程一定要流暢;
- 結合業務影響(比如減少成本、增加收入)說明分析結果。
使用Jupyter Notebook或RMarkdown檔案記錄專案,也可以使用免費的Github Pages將Markdown檔案轉化為靜態網頁。
完成上述五個專案,把它們加到你的作品集裡,找工作時,把你的作品集展示給面試官,就能把他們都給震了。
保持積極的心態,不斷實踐各種資料科學專案,你就能在資料科學這條道路上不斷前進,最終找到一條屬於自己的路,並在這個領域佔據一席之地。順祝馬到成功,高薪在手!