如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說

大資料文摘發表於2018-09-02

原文網址 : http://www.jiqizhixin.com/articles/2018-09-05-7

資料科學是什麼？資料分析？機器學習？還是資料工程？答案可能有很多，但也許只有直接與某個公司的資料科學家交流，才能瞭解該公司是如何看待資料科學的。由Netflix舉辦的第三屆聚焦資料科學的WiBD研討會，為我們所有人瞭解Netflix的資料科學故事提供了絕佳機會，一起來看看吧！

資料科學是一個非常抽象的概念。有些人認為它是資料分析，也有一些人認為它是機器學習，還有些認為它帶有一些資料工程的味道。

業界對資料科學這一概念難以達成一致有很多原因，其中一點就是，現在大範圍內的崗位都可能涉及資料科學，並且這些崗位的職責都不盡相同。

此外，不同公司之間的細微差別，甚至是同一公司內部的不同團隊之間的細微差別都會導致對資料科學的理解不同。因此，只有直接與某個公司的資料科學家交流才能瞭解該公司是如何看待資料科學的。

資訊不對稱是一個令人遺憾的事實，它阻礙了許多人追尋資料科學以及資料工程這一職業的道路。

如果我們投入越多的工作時間來解決這一棘手的問題，那麼這一阻礙也就能越早被突破。關於這一點，推薦一個社會教育企業——HasBrain，該企業致力於填補資訊缺口並且為想要學習並找到通往資料科學和資料工程道路的人提供幫助。

HasBrain:

http://www.hasbrain.com/

構建資料科學專案

如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說頭腦風暴活動

現實世界的資料科學專案與理論上的有何不同，如何構建資料科學專案才能更高效？Becky在研討會上展示的資料科學專案體系對該問題總結得非常好。

以下是Becky的總結

步驟一：從瞭解業務問題開始

下面的幻燈片，是Becky就如何定義成功而列出的一系列業務問題。如果你想要很好地證明你的概念，你需要一開始要以一個簡單模型作為基準，然後從增量改善（incremental improvement）的角度來評估模型的價值。

否則，你會一直困擾於75%的準確度是否足夠好這樣的問題。擁有物理學博士學位的Becky也提到，專業學者總是會仔細檢查到最後那20%，以確保結果是無懈可擊的。所以，如果博士生們想要成為資料科學家，這一點是需要特別注意的。

如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說

步驟二：制定技術計劃

除了下面的幻燈片中列出的細節，Becky還強調了溝通的重要性，同時還提出要站在利益相關者的角度思考。因為利益相關者最關心的未必是機器學習的誤差測度，所以要學會如何將業務目標轉化為價值優化問題，這一點極為關鍵。

相較於“重新發明輪子”，弄明白和學會使用現有的技術可以為我們節省很多時間。現有的用於監督學習的技術，如預測建模或分類，都有很好的文件記錄。

然而，在相對更先進以及更專業的機器學習領域（例如NLP和影像分類），新文章不斷地發表，技術不斷地更新。因此，即時瞭解最新和最好的研究論文是資料科學家們需要牢記的黃金準則。

如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說

步驟三：對概念進行初步驗證 -> 不斷迭代/驗證直到成功或是無法再繼續 -> 向利益相關者傳達結果

如果你對工作流程甚至是資料科學家使用的工具或庫還有任何的疑問，都可以參考Becky在專案構建中對“doing the project”這部分的詳細描述。

如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說

步驟四：模型產品化

如果一些資料科學家告訴你必須要學會編寫產品級程式碼，那麼，他們可能需要獨立處理模型產品化，而不是交給機器學習工程師或是軟體工程師。

模型產品化本質上就是指不要在現有的模型輸出上停滯不前。你的結果輸出是產品的一部分，並且會改變使用者的實際體驗。

你的程式碼也會成為更大的產品程式碼庫的一部分，例如，如果你歸類使用者是否會在未來兩週內流失，被預測為會流失的使用者和被預測為不會流失的使用者可能會有不同的使用者介面（UI）。

實際上，你是為其他團隊建立了一個API來呼叫你的模型並獲得模型輸出。你可能需要重構你的程式碼，此時，只要API沒有中斷並且終端使用者體驗是無縫的，你就可以不斷地升級模型。

Becky自學了工作中要用到的軟體工程方面的知識，學會使程式碼模組化，以實現可重複性並提高演算法效率。甚至有時，可能會參與到軟體工程師或是資料工程師的團隊中。這不僅取決於工作的複雜性，還取決於服務等級協議(Service Level Agreement, SLA)。例如，如果你的API需要一直處於執行狀態，則可能需要更廣泛的程式碼審查或軟體工程團隊的直接參與。

溝通與問題解決

如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說

在講述了資料科學專案的構建之後，Becky更多地談到了有效溝通和解決問題的技巧的重要性。如何向非技術人員的利益相關者們解釋複雜的資料科學概念，是獲得他們買進支援的重要環節。

Becky將她在攻讀物理學博士學位期間學會的一項技能運用於此——將複雜問題分解成小塊並逐一解決。類似地，她就將利益相關者的高階問題（high level question）進行分解，並找出資料科學專案可以提供價值的地方。

如果沒有資料科學家的工作經驗，想要勝任這部分工作是不容易的，因為包括Kaggle專案在內的大多數實踐專案都是從已經定義明確的資料科學問題開始的。Becky談到，這些軟技能其實是從經驗中獲得的，當然也可以從有效的反饋中學習。

與此同時，她也會閱讀一些基礎書籍來熟悉商業中的通用概念和術語。另外，許多其他資深的資料科學家們都建議，如果想要進一步發展自己的商業頭腦，則需要閱讀一些產品管理的書籍和文章。

實踐練習

如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說

這個專案使用WDI資料來預測業務啟動成本，非常適合初學者。如果你是機器學習新人，或是剛剛完成一些監督學習的網路基礎課程，這將會是一個很好的額外練習機會。

hands-on exercise:

https://github.com/NFLX-WIBD/WIBD-Workshops-2018

現在，讓我們回到之前談論的問題解決和溝通方面，Becky就此提出了一個業務問題：“在不同的國家開展業務都有多難？”她還確立了一個專案目標，即預測在不同國家開展業務的成本。

如果這是一個實際的工作專案，對於開展業務的便利性來說，這些預測成本要如何成為整體評估決策中的一部分，我想，她可能需要與利益相關者就此問題達成一致。

最後，希望這個總結對你有幫助。祝所有資料科學愛好者們好運！並再次感謝Netflix團隊的慷慨分享！另有演示的幻燈片和錄影可供使用。

【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
你信得過AI嗎？聽聽IBM科學家怎麼看
2019-10-11
AIIBM
沒有“好的”資料，AI就沒有未來？聽聽雲測資料怎麼說
2019-12-13
AI
如何成為資料科學家？ - kdnuggets
2020-10-29
資料科學
VueJS&&ReactJS如何？聽聽別人怎麼說。
2018-06-21
VueJSReact
公益直播課|遠離勒索病毒，聽聽專家怎麼說
2021-02-03
聽說你想成為Java老司機？這裡有一份進步寶典~
2019-02-26
Java
公司財務與業務如何融合，實現會計管理資訊化？聽聽專家怎麼說
2021-05-08
恐怖遊戲的當下和未來？來聽聽Gamera和製作人們怎麼說
2021-01-20
遊戲GAM
學習Java虛擬機器沒用？聽聽當事人是怎麼說的！（skycto JEEditor）
2019-09-11
Java虛擬機
來聽聽達摩院技術專家是怎麼講智慧外呼機器人技術
2020-06-23
機器人
PHP擴充套件開發系列01 – 我要成為一名老司機
2019-05-11
PHP套件
全面佈局安全可靠聽聽東軟怎麼說！
2019-01-30
DBA“老司機”怎麼看待Oracle自治資料倉儲？
2018-09-19
Oracle
在小公司如何做一名成功的資料科學家？
2019-02-15
資料科學
2020年自媒體運營怎麼做？且聽我說
2020-04-10
【學員評價】老男孩培訓學習分享，聽聽別人如何評價！
2022-11-10
React 和 Vue 到底誰更牛？聽聽尤雨溪怎麼說
2018-12-19
ReactVue
為什麼Proxy可以優化vue的資料監聽機制
2018-11-28
優化Vue
成為資料科學家應該知道的10種機器學習演算法
2019-03-16
資料科學機器學習演算法
【學習心得】老男孩Linux課程學習分享，聽聽我的故事！
2022-11-04
Linux
怎麼回事？聽個WAV音樂怎麼就成“挖礦機”了
2019-11-25
老男孩培訓靠譜嗎？一起來聽聽學員最真實的想法！
2022-10-24
遊戲交友是社交的匱乏還是繁榮？聽聽這些大學生怎麼說
2019-05-06
遊戲
遊戲載具的體驗設計如何助你成為老司機?
2022-07-04
遊戲
聽筒播放請貼近手機聆聽怎麼取消？
2024-05-15
如何獲得一場黑客馬拉松的勝利？聽聽AWS特約評委怎麼說
2022-05-19
黑客
資料工程師、掌握資料分析，成為資料科學家、資料庫遷移專家
2022-03-20
工程師資料科學資料庫
競技世界首席資料科學家巴川：資料科學，未來或將成為民族核心競爭力
2019-12-11
資料科學
終於！Go 1.18 將支援泛型，來聽聽Go 核心技術團隊 Russ Cox怎麼說
2021-11-04
Go泛型
言值||如何讓自己成為一個說話聲音動聽的人
2018-08-01
AI如何融入實體經濟？聽聽大咖怎麼講
2019-03-26
AI
如何成為一名大資料工程師？
2018-12-25
大資料工程師
【學習心得】老男孩教育口碑好不好？聽聽學員的真實故事！
2022-11-03
老男孩Linux課程好不好？聽聽學員真實的學習感悟！
2022-11-11
Linux
雲端計算儲存之什麼是Ceph？聽聽Ceph創始人怎麼說
2018-11-26
老闆說相機APP實現美團功能！聽完我哭了。。。。。。。
2020-03-02
APP
聽說你的物件有個”環“？怎麼發現的呢？
2021-10-29
物件

如何成為一名資料科學家？聽聽來自Netfix的老司機怎麼說

相關文章