圖來源於Dan Dimmock在Unsplash上的拍攝

近些年來,資料科學家這一崗位已經變得越來越炙手可熱,也吸引了大批年輕人湧入渴望在激烈的競爭中搶佔一席之位。各個網路平臺上都已經有無數乾貨資料科學行業的簡歷、求職、面試教程,但是很顯然成為一位優秀資料科學家的旅途不會因為求職成功就結束。收到offer僅僅只是第一步。

我在麥肯錫諮詢公司的那些年,很榮幸能跟許多厲害的資料科學家以及各行各業的頂尖公司合作。我從中也受益匪淺,並從長期實踐和觀察中總結出來許多資料科學界的經驗和體會。你可能會覺得震驚的一個事實就是:最優秀的資料科學家不是那些會用各種新奇模型或者程式碼寫得很好的,事實上,真正優秀的資料科學家是掌握了豐富理論知識的同時還擁有各種軟知識的人。因此,這篇文章總結了我在麥肯錫的學到的成為優秀資料科學家的五大關鍵準則。

1. 使用金字塔原則溝通是成功的鑰匙

巴巴拉·明託的金字塔原則是一項層次性、結構化的思考、溝通技術。這項原理被視為最有效率的資訊溝通方式,並且被廣泛運用於公司、企業、甚至個人生活中。金字塔原則背後的原理很簡單:當你想要交流某個觀念或想法的時候,最高效的方法:1. 結論先行 2. 以上統下 3. 邏輯遞進

使用金字塔原則進行溝通有以下兩個優點:

1. 不管你的實際內容有多深奧,使用金字塔原則可以幫助你的聽眾更好理解你的觀點。通常學術論文、或企業報告的開頭都會有個摘要,總結整篇文章或材料的中心思想。這樣的作法可以確保讀者在沒辦法理解、記住所有文章細節的情況下,也能理解其核心思想。

2. 金字塔原則可以幫你適當節省下為不同觀眾群體準備不同材料(比如演講ppt)的時間。你可以運用金字塔原則做一份你所要展示的問題的核心思想的演講材料,針對不同受眾群體適當補充他們所感興趣的細節和論點。

對於大部分資料科學家而言,由於他們本身的工作大部分時間都在關注細節、深挖可分析的點,金字塔原則可能看上去並不那麼適用。事實上,我也經常看見許多資料科學家在演講中並未採取金字塔原則,先從細節開始講起,而這些演講的效果也並不好,觀眾們很難快速理解到他們的核心思想和問題所在。

如何練習/提升:最簡單的方法就是在一切最開始前先根據金字塔原則寫下自己的結論、論點、和邏輯遞進,並在溝通過程中參照自己最開始前寫下的內容確保自己沒有跑題。時不時地反問自己一些問題(類似於中心結論和問題到底是什麼,問題真的被解決了嗎)也可以確保你走在正確的道路上。

2. 你是資料的翻譯官

如果你看麥肯錫的企業藍圖

https://www.mckinsey.com/industries/financial-services/our-insights/building-an-effective-analytics-organization,你會發現上面強調了資料的翻譯官這個角色的重要性。資料的翻譯官的也可以理解為企業與資料中心之間的溝通橋樑,需要把一個個資料分析的結論和觀點翻譯成實際可行性方案。我相信一個資料科學家肯定被問過以下問題:可以請你用大白話或清晰易懂且非專業性的語言解釋一下你的觀點和結論嗎?因此,一個資料科學家應該具備把專業性極強的機器學習模型用清晰易懂的語言解釋給CEO或者任何非專業背景的聽眾的能力,並且同時也應該具備把自己的結論觀點翻譯成企業實際可行性方案的能力。

具備這些能力有以下優點:

1. 不具備專業背景的人很難成為資料的翻譯官。麥肯錫曾經嘗試過很多方法去培訓戰略顧問成為翻譯官,但是在我看來,從未成功過。失敗的原因很簡單:一個人必須具備足夠的專業背景和分析能力才能精準地解釋那些複雜的資料分析背後隱藏的意義,而豐富的專業背景和傑出的分析能力都不是短期的培訓就能培養出的能力。舉個例子,如果你並不理解k均值聚類背後的數學邏輯和原理,你沒辦法清晰解釋為何要這麼選這個數字作為你的k值而不是其他數字。而作為一個資料科學家,與其花費時間向那些非專業人士解答他們難以理解的專業術語和原理,不如想辦法用清晰易懂的話語翻譯給他們。

2. 如果資料科學家可以自己解釋自己的工作成果,可以大幅度避免資訊在傳播過程中導致的扭曲和失真。我相信大部分人都玩過傳話遊戲,傳播過程越長,涉及的人數越多,資訊越容易在傳播過程中被扭曲、誤傳。這種情況也同樣適用於資料科學家的日常工作中,如果你通過別人來翻譯你的工作成果,你很難保證當資訊傳播到終端使用者的時候跟你最開始想要傳達的沒有一點偏差。

如何練習/提升:找一位身邊的朋友(最好是非專業人士),向他解釋你的模型和資料分析結果。在解釋的過程中,如果你發現你不知道如何把一個概念用清晰易懂的方式表達出來,大部分情況下是因為你並沒有完全掌握這個概念。因此,這個練習也是一個很好的查漏補缺的機會。 

3. 時刻把解決實際問題放在第一位

這一黃金準則並不只限於資料科學家,事實上,時刻把解決實際問題放在第一位適用於任何行業中的任何職位。發現問題並提出問題的能力尤為重要,而更重要的是有解決問題的能力。如果沒有時刻把解決問題放在第一位,開會討論的時候經常會陷入一個怪圈:過度關注於問題本身而不是想辦法去解決問題。

在我看來,大部分頂尖諮詢公司都奉行時刻把解決實際問題放在第一位的準則。作為一個資料科學家,你可能經常會因為不具備專業背景的同事提出一些在你看來很可笑的稀奇古怪的問題或需求而感到懊惱。我見過許多資料科學家們在這種情況下束手無策,直接拒絕他們的需求。比起直接拒絕,更好的做法是運用自己的分析能力和專業背景幫助他們重新定義問題所在並想辦法切實地解決他們的問題。

時刻把解決實際問題放在第一位並不意味著你不能在工作中拒絕任何需求。事實上他意味著每當你拒絕後,你可以緊跟著提出或許……做可以解決你的問題嗎?

如何練習/提升:當你遇到問題時,在跟同事溝通討論前,先自己花時間想一想如果是你的話你會如何解決。面對問題時,多運用你的創造性思維發掘新的解決方案,不要害怕做那個提出新的解決方案的人。有時候換位思考的能力也很重要,嘗試著以整個公司或者其他業務部門的角度去思考他們會如何解決這個問題。從大局出發思考,有時候也會帶來意想不到的解決問題的方案。

4. 有時候可以為了模型的可解釋性而適當犧牲模型的準確率。

沒有人真的想精準預測出結果,所有人都只是在嘗試分析、理解結果。

當一個企業想要建立模型去預測出未來客戶流失數時,大部分情況下,人們都忘了在第一時間問為什麼我們需要預測客戶流失數。企業想要預測出某些結果是因為他們可以提前採取措施應對以避免損失。所以當你的模型告訴CEO “在預測客戶流失數裡網站訪問量的立方根是最顯著的特徵意味著什麼呢?很可能在他看來毫無意義。

作為一個資料科學家,我以前也經常過度追求模型的準確性。但是我逐漸意識到了通過新增一些無法解釋、沒有意義的變數;或者調參僅僅只是為了把準確率從96%提高至98%對整個公司來說並沒有太大的意義(當然,這個觀念僅僅只適用於業務導向的資料科學家們,對於其他領域的機器學習工程師而言,模型準確率可能極其重要)。

對於大部分高管和業務部門來說,如果你無法解釋你的模型和模型的結果,那你的模型可能在他們眼裡看來並沒有那麼可靠。模型只是為了輔助他們去更好地做出商業決策,所以模型更大的意義是可解釋性而不是準確率。

如何練習/提升:當你在建模或做資料分析時,時刻反問自己這會如何影響公司呢。建模過程中,儘量避免放一些隨機、意義不大的互動特徵。當你的模型或分析有結果後,可以根據結果具有針對性地寫下對公司的建設性意見,這樣的作法也會幫助你更好的評估自己的模型是否適用。

5. 在開始前,確保自己有個假設場景,但是不要僅侷限於一個假設。

在開始任何分析工作之前,設立好自己將要分析的假設場景尤為重要。如果不設立好分析背景,你可能在前期資料處理、EDA 或者是如何選擇特徵時一頭霧水。如果沒有任何假設,AB測試也沒辦法進行。儘管提前設立好自己的假設如此重要,我也見過沒有提前設立好假設就開始處理問題的資料科學家。在這種情況下,資料科學家們往往把設立假設這個關鍵任務丟給了缺乏專業背景的業務部門,而他們往往會因為缺乏一些專業背景和對資料的熟悉設立一些實際工作場景中無法檢驗的假設。因此,在我看來最好的做法是資料科學家們在一開始就應該參與到設定假設的過程中去指引他們哪些是可嘗試的而哪些是無法嘗試的。

設立假設尤為重要,因為它是一切的起點,但是這並不代表設立好一個假設後就萬事大吉了。我經常看見許多資料集科學家們過於執著於一個假設,儘管這個假設帶來了自相矛盾的結果。太過於執著於一個假設可能會導致為了滿足這個假設而去人為的更改一些資料或進行一些影響準確率的操作。如果你聽過辛普森悖論,那你一定很清楚資料是具備撒謊的能力的。一個好的資料科學家應該把資料可靠性放在第一位,因此不要僅僅只侷限於一個假設。

 

如何練習/提升:設立假設是具備業務思維和敏銳度尤為重要。有了假設之後跟著你的假設去進行資料探索,但是當資料呈現出與你的假設相反的結果時,也不要過度執著於自己一開始的假設。

 

人們通常把人才分為兩種:戰略性人才和分析性人才,這樣的分法就好像在暗示一個人無法同時擁有這兩種能力。但是事實上,一般最好的分析性人才恰恰是那些能理解公司戰略性政策和想法,並且懂得如何和業務部門溝通的人。而最好的戰略性人才也恰恰是那些具備足夠資料分析能力的人。

 

原文標題:

5 Lessons McKinsey Taught Me That Will Make You A Better Data Scientist

原文連結:

https://towardsdatascience.com/5-lessons-mckinsey-taught-me-that-will-make-you-a-better-data-scientist-66cd9cc16aba?gi=2242e432865c

來自: 資料派THU