【譯Py】2018年，這5個資料科學專案能幫你找到工作

呆鳥發表於2018-07-08

原文網址 : https://juejin.im/post/5b41bac86fb9a04fa7753553

資料科學

標籤：資料預處理、資料科學、資料視覺化、招聘、Jupyter、機器學習

原文作者：John Sullivan，資料科學部落格DataOptimal的創始人，可以通過 @DataOptimal在Twitter上與他聯絡。

原文地址：5 Data Science Projects That Will Get You Hired in 2018

歡迎來我的簡書：呆鳥的譯Py胡言

看了不少天善智慧 ^1的視訊課，讀了一堆資料科學的書，下一步你打算怎麼辦？

找個資料科學的工作不容易，不過我有個好主意能幫你找工作，這就是打造你自己的作品集，利用作品集展示你學到的技能，讓未來的老闆知道你有多大本事。

你可以把這5個資料科學專案放到作品集裡，以此說明自己的能力：

資料清洗

資料科學家往往要耗費高達80%的時間來清理新專案的資料，這是資料科學團隊最大的痛點。如果能告訴他們你擁有豐富的資料清理經驗，你的價值馬上就能體現出來了。現在，找一些需要清理的資料集，建立一個資料清洗專案，開始資料清理吧。

用Python的話，Pandas絕對是首選，如果用的是R，可以使用dplyr這個包。記得要表現出以下幾項技能：

匯入資料；
合併多個資料集；
檢測缺失值；
檢測異常值；
插入缺失值；
資料質量驗證。

探索性資料分析

資料科學的另一項重要工作是探索性資料分析（EDA，Exploratory Data Analysis ），它是提出問題、使用視覺化方法研究問題的過程。探索性資料分析可以讓分析師通過資料得出結論，進而影響業務決策。這項工作可以是通過客戶細分得出洞察結果，也可以是分析季節因素對銷售趨勢的影響。一般來說，探索性資料分析會帶來一些讓人意想不到的發現。

Python使用者可以使用Pandas和Matplotlib（譯註：強烈推薦國內使用者使用鍵冬同學的**PyEcharts**，互動式的視覺化圖，非常好用！)這兩個庫進行探索性資料分析。R使用者可以使用ggplot2這個包，也非常實用。探索性資料分析這個專案要展示出如下幾方面的技能：

能夠提出探索性的問題；
能夠識別趨勢；
能夠識別變數的共變性（covariation）；
能夠使用視覺化（散點圖、直方圖，箱須圖等）有效地溝通分析結果。

互動式資料視覺化

互動式資料視覺化包括使用Dashboard這樣的工具。資料科學團隊和終端業務使用者都喜歡使用這些工具。資料科學團隊可以使用Dashboard進行協作，一起開展資料分析工作。更重要的是，Dashboard為終端業務使用者提供了互動式的工具，讓他們把精力放在戰略目標上，而不用關注過多的技術細節。很多時候，資料科學團隊提交給使用者的可交付成果都是以Dashboard這種形式體現的。

Python使用者可以使用Bokeh和Plotly，這兩個庫都是編制Dashboard的利器。R使用者則必選RStudio的Shiny包。Dashboard的專案一定要突出以下這些重要的技能。

列出客戶需求相關的指標；
提取有用的特徵；
使用有邏輯的佈局，比如易於瀏覽的“F模式”；
建立最優的重新整理率；
生成報告或其它自動化的操作。

機器學習

機器學習專案是你的作品集裡另一項非常重要的內容。在你關掉這篇文章，開始構建深度學習專案前，不要著急，我們們先花一分鐘的時間回顧點兒基礎概念，就算要建立一個特別複雜的機器學習模型，也得先從基礎做起。我建議從線性迴歸與邏輯斯蒂迴歸做起，和高管溝通時，解釋這些模型也會相對容易一點。這個專案的重點應該是突出專案對業務的影響，比如客戶流失、欺詐監測，或貸款拖欠這些內容。提醒一下，別再用預測鳶尾花型別這樣的例子了，最好找些實用的資料專案。

Python使用者可以用 Scikit-learn這個機器學習庫，R使用者可以使用Caret這個包。機器學習專案要傳達給讀者你具有以下技能：

能夠說明選擇某個機器學習模型的原因；
能夠避免過擬合，將資料分割為訓練集與測試集（K折交叉驗證）；
能夠選擇正確的評估指標（AUC~Area Under Curve, 調整R方~Adj-R^2^, 混淆矩陣~confusion matrix）；
能夠開展特徵工程與選擇的能力；
能夠進行超引數調優。

溝通

溝通對於資料科學的重要性比你想的要大得多，能否有效地溝通、交流資料分析結果是區分牛X資料科學家和普通資料科學家的標準。不管你做的模型多花哨，如果不能給同事或客戶講清楚，不能讓他們理解，就沒人會買你的賬。幻燈片和筆記是超強大的溝通工具，你可以嘗試把機器學習專案改造成幻燈片，還可以使用Jupyter Notebook或RMarkdown輔助溝通。

記住，首先要搞清楚目標受眾是誰，給公司高管做彙報和給機器學習專家做演講完全是兩碼事兒。注意要突出以下這些能力：

搞清楚你的目標受眾是誰；
展示視覺化圖；
幻燈片要清爽，不要塞進去太多資訊；
陳述流程一定要流暢；
結合業務影響（比如減少成本、增加收入）說明分析結果。

使用Jupyter Notebook或RMarkdown檔案記錄專案，也可以使用免費的Github Pages將Markdown檔案轉化為靜態網頁。

完成上述五個專案，把它們加到你的作品集裡，找工作時，把你的作品集展示給面試官，就能把他們都給震了。

保持積極的心態，不斷實踐各種資料科學專案，你就能在資料科學這條道路上不斷前進，最終找到一條屬於自己的路，並在這個領域佔據一席之地。順祝馬到成功，高薪在手！

【譯Py】資料科學麵試終極指南（一）
2019-03-04
資料科學
【譯Py】資料科學麵試終極指南（五）
2019-02-25
資料科學
【譯Py】資料科學麵試終極指南（七）
2019-02-26
資料科學
【譯Py】資料科學麵試終極指南（二）
2018-07-09
資料科學
Excel這個功能，幫助我迅速找到所需資料
2019-04-10
Excel
資料科學求職建議：掌握5種型別的資料科學專案
2018-06-29
資料科學求職型別
自學前端能找到工作嗎？
2021-09-18
前端
邦芒支招：6個建議幫你找到合適的工作
2024-02-20
Airbnb資料科學家:歷時6個月，我終於找到了心儀的工作
2018-07-21
AI資料科學
還在為找開源專案發愁麼？或許這個專案能幫助你
2024-08-02
專案經理必學的6個工具，這些知識能否幫你避免專案管理崩潰？
2024-12-04
專案管理
著陸資料科學工作的8個技巧！
2018-11-06
資料科學
這10個學習資源網站，一年能幫你省下幾十萬的學費
2018-06-14
網站
低學歷轉Java能找到工作嗎
2021-07-09
Java
手把手教你完成一個資料科學小專案（5）：省份提取與視覺化
2019-02-26
資料科學視覺化
沒文憑能學IT技術嗎_學完能找到工作嗎？能的
2021-06-30
5月Github上最熱門的資料科學和機器學習專案TOP5
2018-06-20
Github資料科學機器學習
如果能重來，我選擇這樣學習資料科學……
2020-10-07
資料科學
ChatGPT用於科學，如何與你的資料對話？LLM幫你做科研
2024-07-25
ChatGPT
學好UI設計能找到哪些高薪工作？
2020-11-06
UI高薪
零基礎學Java能找到工作嗎？
2021-09-02
Java
你與資料科學家只差這26條python技巧
2019-02-13
資料科學Python
本週Github上資料科學Python有趣專案
2024-03-16
Github資料科學Python
盤點5個常用的Python資料科學庫！
2022-09-30
Python資料科學
提升專案管理能力，你需要掌握這5個重點
2021-08-03
專案管理
Python機器學習 5個資料科學家案例解析
2018-10-16
Python機器學習資料科學
手把手教你完成一個資料科學小專案（3）：資料異常與清洗
2018-08-16
資料科學
5個免費工具，讓資料科學更加簡單
2019-02-26
資料科學
最性感的工作？資料科學不一定適合你
2020-10-30
資料科學
初創公司資料科學專案全流程指南，一位資深資料科學家的經驗談
2019-01-22
資料科學
歷史上54位偉大科學家、數學家的專屬LOGO，你能認出幾個？
2018-09-03
Go
（資料科學學習手札63）利用pandas讀寫HDF5檔案
2019-07-05
資料科學
Java有什麼優點？學完Java能找到工作嗎？
2022-02-23
Java
大專生自學大資料到找到工作的前前後後
2018-06-30
大資料
一樣學前端，為何別人能學好並找到高薪工作?
2019-05-05
前端高薪
零基礎自學java要多久學完能找到工作嗎
2019-04-25
Java
專訪競技世界首席資料科學家巴川：不要辜負這個時代
2019-02-20
資料科學
[譯] 初創公司的資料科學：簡介
2019-03-04
資料科學

【譯Py】2018年，這5個資料科學專案能幫你找到工作

相關文章