看來你已經決定要進入資料科學這個領域了。資料正在驅動越來越多的業務,世界的聯絡正在變得越來越緊密,似乎每個業務都需要資料科學實踐。因此,對資料科學家的需求是巨大的。更好的是,所有人都承認這個行業的人才短缺。
然而成為一名資料科學家並不容易。需要擁有解決問題的能力、結構化思維、編碼和各種技術技能才能真正獲得成功。如果您並非技術或數學背景,那麼通過書籍和視訊課程來學習是很好的方式。但是大多數這類資源不會教你行業內需要什麼樣的資料科學家。
這就是胸懷抱負的資料科學家努力縮小自我教育與實際工作之間差距的原因之一。
本文將討論資料科學愛好者常犯的一些錯誤(包括我自己都曾經犯過),我也會提供一些資源幫助你避開資料科學之旅上的陷阱。
圖片來源:cognitive class-YouTube
就像我之前提到過的一樣,掌握機器學習技術背後的理論是非常好的,但是如果你不去應用它們,它們就僅僅是理論概念。當我開始學習資料科學的時候犯了同樣的錯誤,我學習書本知識和線上課程,但卻沒有應用它們去解決問題。
所以當我有機會應用我所學的知識去解決挑戰或問題時,幾乎一大半我都不記得了!要學的東西太多了,演算法、推導、研究論文等等等等。你有很高的機率失去動力然後半途放棄。我本人見證過許許多多想進入這個領域的人都是這樣。
學習過程中保持理論和實踐之間健康的平衡是非常必要的。只要學習了一個概念,請立即Google一下找到可以應用它的資料集或問題。你會發現你比以前更好地吸收了這種概念。
你必須承認所有東西是不可能一次性學完的。一邊練習一邊填補空白,將會學到更多東西!
圖片來源:倫敦帝國理工學院 – YouTube
大部分想成為資料科學家的人是看到了機器學習的相關視訊,或一個超級棒的預測模型,抑或是高薪的吸引,然而,想要成為你看到的樣子,還需要走很長的路。
在將技術應用到問題之前,你應該先了解它的工作原理。這將有助於瞭解演算法的工作原理,以及做些什麼可以對其進行微調,還可以幫助你構建現有技術。數學在這裡發揮著重要作用,因此瞭解某些概念總是有幫助的。在日常的企業資料科學家角色中,您可能不需要了解高階微積分,但有高階的整體認識肯定是有幫助的。
如果您有一個好奇的想法,或想要進入研究角色,在開始進行核心機器學習之前,您需要了解的四個關鍵概念是:
正如房子是一磚一瓦建造的,資料科學家也是所有單個部件的總和。有大量的資源可以幫助學習這些主題。下面列出一些資源,可以幫助您入門:
https://www.khanacademy.org/math/calculus-home
圖片來源:CIO.com
這也是招聘人員的煩惱。自從資料科學變得非常受歡迎以來,到處都有認證和學位。我在LinkedIn上看了一下,至少展示了5張認證的圖片。雖然獲得認證並不容易,但只依賴認證是一種災難。
許許多多的胸懷抱負的資料科學家被大多數線上課程傾倒並且完成學習。如果他們為你的資料科學簡歷新增了一個獨特的價值,那就沒問題了。但是招聘人員並不關心這些考試 – 他們更看重你的知識,以及你如何在實際工作中應用。
這是因為與客戶打交道,處理截止日期,瞭解資料科學專案生命週期如何工作,如何設計模型以適應現有業務框架等等,這些都是作為資料科學家所需要了解的事項。只是認證或學位無法認證你這方面的能力。
不要誤解我的意思。認證是很有價值的,但只有當你將這些知識應用到課堂之外並將其公之於眾的時候才有價值。使用真實世界的資料集和做任何分析,都把它們寫下來。比如建立自己的部落格,在LinkedIn上釋出,並徵求社群的反饋意見。這表明您願意學習並且足夠靈活,可以徵求建議並將其用於您的專案。
應該對實習的想法持開放態度。實習中你將瞭解資料科學團隊如何工作,這將使您在參加另一次面試時受益。
如果您正在尋找專案,我們有一個很棒的,按照難度劃分的專案列表
這是有胸懷抱負的資料科學家進來最大的誤解之一。比賽和黑客鬆為我們提供了乾淨規整的資料集。你下載它們並處理這些問題。即使那些具有缺失值列的資料集也不需要花費腦細胞 – 只需要查詢補充缺失值即可。
不幸的是,現實世界的專案並不是這樣的。會有一個端到端的資料管道,涉及與一群人合作。你幾乎總是要處理混亂的髒資料。關於花費70-80%的時間來整理和清洗資料的傳說是真的。這是一個令人精疲力竭的工作,你很大可能不喜歡,但它最終會成為例行公事。
此外,我們將在下一點更詳細地介紹,更簡單的模型將優先於任何複雜的堆疊集合模型。準確性並不總是最終目標,這是您在工作中將學到的最具對比性的事情之一。
諷刺的是,消除誤解的關鍵因素之一是經驗。你獲得的經驗越多(實習在這種情況下有很多幫助),你就能越好地區分兩者。這就是社交媒體派上用場的地方 – 與資料科學家聯絡並詢問他們的經驗。
另外,我建議這個Quora問題(連結在下方),來自世界各地的資料科學家就這個確切的問題提供他們的意見。在競賽排行榜上取得好成績非常適合衡量你的學習過程,但是面試官想知道的是你如何優化演算法達到效果,而不是提高準確性。瞭解資料科學專案的工作原理,團隊所擁有的不同型別的角色都是什麼(從資料工程師到資料架構師),以及在這種意義下的答案。
Quora
https://www.quora.com/How-similar-are-Kaggle-competitions-to-what-data-scientists-do
LinkedIn文章,解釋了分析模型的標準方法
https://www.linkedin.com/pulse/standard-methodology-analytical-models-olav-laudy/?trk=prof-post
圖片來源:Design Shack
如上所述,準確性並非總是業務的目標。當然,一個能夠以95%的準確度預測貸款違約的模型是非常好的,但是如果你無法解釋模型是如何實現的,哪些特徵實現了它,以及你在構建模型時的思路,你的客戶會拒絕這個模型。
你很少會發現在商業應用中使用的深度神經網路。向客戶解釋清楚神經網路(更不用說深層)如何與隱藏層,卷積層等一起工作是不可能的。首要偏好,並且通常情況下,是永遠確保我們能夠理解模型背後正在發生的事情。如果您無法判斷年齡,家庭成員數量或之前的信用記錄是否涉及拒絕貸款申請,該業務將如何運作?
另一個關鍵是你的模型是否適合企業現有框架。如果生產環境無法支援,使用10種不同型別的工具和庫都會失敗。您將不得不採用更簡單的方法從頭開始重新設計和重新訓練模型。
避免自己犯這個錯誤的最佳方法是與業內人士交流。沒有比經驗更好的老師。選擇一個領域(財務,人力資源,營銷,銷售,運營等),與人溝通了解他們的專案如何運作。
除此之外,練習製作更簡單的模型,然後向非技術人員解釋。接著增加模型的複雜性並繼續想非技術人員解釋,直到你不知道接下來發生了什麼為止。這將指點你何時該停止,以及為什麼在實際應用中,簡單的模型總是被優先考慮。
如果你曾經這樣做過,你會知道我在說什麼。如果你的簡歷現在有這個問題,快去修正!您可能知道很多技術和工具,但只是簡單地列出它們會讓潛在的招聘經理遠離你。
你的簡歷是介紹你已經完成的事情以及你是如何做到的 – 而不是簡單羅列的事項清單。當招聘人員檢視您的簡歷時,他/她希望以簡潔和總括的方式瞭解您的背景以及您所取得的成就。如果頁面的一半充滿了了模糊的資料科學術語,如線性迴歸,XGBoost,LightGBM,沒有任何解釋,您的簡歷可能無法通過篩選。
消除簡歷混亂最簡單的方法是使用專案符號。僅列出你會用到去完成某些事情的技術(可能是專案或競賽)。寫一篇關於你如何使用它的文章會更有助於招聘人員理解你的想法。
當您申請入門級的工作時,你的簡歷需要反映你潛在可以為業務增加的影響。簡歷將被應用於不同領域中的角色,因此準備一個模板會有所幫助 – 只需更改您對該特定行業的興趣即可
Kunal Jain撰寫的這篇文章是為資料科學角色準備優秀簡歷的絕佳資源。
圖片來源:資料科學實驗室
讓我們舉個例子來理解為什麼這是一個錯誤。想象一下,你拿到了一個房價資料集,你需要預測房地產的價值。有包括建築物數量,房間數量,租戶數量,家庭規模,庭院大小,是否有水龍頭等等200多個變數。您很可能不知道某個變數的含義。但您還是構建具有良好準確性的模型,但您不知道的是為什麼剔除了這個變數。
事實證明,該變數是現實場景中的一個關鍵因素。這是一個災難性的錯誤。
擁有紮實的工具和庫知識是非常好的,但它只能到此為止。將這些知識與領域內的業務問題相結合,才是資料科學家真正介入的地方。您應該至少了解您感興趣(或正在申請)的行業中的基本挑戰。
資料視覺化是資料科學的一個很美妙的方面,但許多有胸懷抱負的資料科學家更喜歡略過它直接進入模型構建階段。這種方法可能會在比賽中有用,但在實際工作中必然會失敗。瞭解你擁有的資料是最重要的事情,你的模型結果會反映出這一點。
通過花時間瞭解資料集並嘗試用不同的圖表展示,您將更深入的瞭解您要解決的挑戰或問題,你會驚訝地發現你可以獲得這麼多洞察!可以看到模式和趨勢,以及隱藏的規律。視覺化是向客戶展示洞察的最佳方式。
作為一名資料科學家,你需要天生好奇。這是資料科學最棒的事情之一 – 你越是好奇,你會問的問題就越多。這樣可以更好地理解你的資料,並有助於解決您一開始不知道的問題!
實踐!下次處理資料集時,請花更多時間在此步驟上。您會驚訝於它為您產生的洞察。提問!詢問您的經理,詢問領域專家,在網際網路上搜尋解決方案,如果您沒有找到,請在社交媒體上詢問。你有如此多的選擇!
為了幫助您入門,我在下面提到了一些可供參考的資源:
R中資料視覺化綜合指南
資料探索綜合指南(強烈推薦)
18個免費的探索性資料分析工具適用於編碼不好的人
圖片來源:MindMatters.co.in
結構化思維在許多方面都可以幫助到資料科學家:
- 它可以幫助拆解問題的邏輯結構
- 它可以幫助您視覺化問題的持續方式以及如何設計
- 它幫助終端使用者或客戶以邏輯和易懂的方式理解框架的順序
擁有結構化思維的好處還有很多。可以想象一下,不使用結構化思維的話會不直觀。你的工作和解決問題的方法都是隨意雜亂的,當遇到複雜的問題時你會忘記自己的步驟等等。
當您參加資料科學麵試時,您將不可避免地需要分析案例,測算、估計等。由於面試時充滿壓力的氣氛和時間限制,面試官會考察你的思維結構如何,以達到最終評估。大多數情況下,對是否獲得這份工作來說,這可能是一錘定音的因素。
您可以通過簡單的訓練和規範的方法獲得結構化的思維方式。我在下面列出了一些文章,它們將對你有所幫助:
我見過太多次這個問題了。由於每個工具提供的獨特功能和侷限性不同,人們傾向於一次性的學習所有工具。這是個壞主意 – 你最終無法掌握它們中任何一個。工具是執行資料科學的一種手段,但是它們不是最終目標。
選擇一個工具並堅持學習直到你掌握它為止。如果你已經開始學習R,那麼不要被Python所誘惑。堅持端到端的學習R的使用,然後再嘗試將另一種工具融入您的技能組合中。您將通過這種方法瞭解更多資訊。
每個工具都有一個很好的使用者社群,在遇到困難時可以在社群提問。使用我們的論壇(下方連結)來提問和線上搜尋,不要放棄。目的是通過該工具學習資料科學,而不是通過資料科學學習工具。
如果您仍未確定應該使用哪種工具,請檢視這篇精彩的文章,其中列出了每個工具的優點和缺點(如果您對此感興趣,還包括SAS)。
https://discuss.analyticsvidhya.com/
資料來源:布魯克斯集團
這適用於所有資料科學家,而不僅僅是新人。我們容易分心。在研究了一段時間(比如一個月)之後,然後我們在接下來的兩個月休息。在那之後試圖回到事物的正規上簡直是一場噩夢。大多數早期的概念都被遺忘了,筆記丟失了,感覺就像我們最近幾個月都浪費了一樣。
我也經歷過這一點。由於我們在處理各種各樣的事情,我們找藉口和理由不再學習。但這最終是我們的損失 – 如果資料科學就像開啟教科書並且塞滿一切一樣容易,那麼每個人都是資料科學家。它需要一致的努力和學習,人們直到為時已晚才會意識到這一點
為自己設定目標。繪製出時間表貼在牆上。計劃你的學習方式和內容,並設定截止日期。例如,當我想學習神經網路時,我給了自己幾個星期,然後通過黑客鬆比賽測試我學到的東西。
既然你已經決定成為一名資料科學家,所以你應該準備好投入時間。如果你不斷尋找不去學習的藉口,這可能不適合你。
圖片來源:面試技巧諮詢
這是前面一些問題的組合。有胸懷抱負的資料科學家會害羞線上釋出他們的分析,因為他們害怕受到批評。但是,如果你從沒有收到過社群的反饋意見,那你將不會成長為資料科學家。
資料科學是一個重視討論,思想和頭腦風暴的領域。你不能坐在孤島中工作 – 你需要合作並理解其他資料科學家的觀點。同樣,人們不參加比賽是因為他們覺得自己不會獲勝。這是一種錯誤的心態!你參加這些比賽是為了學習而不是贏。獲勝是獎勵,學習是目標。
相當簡單 – 開始參與討論和比賽!不進入前5%也無所謂。如果你從整個事物中學到一種新技術,對你來說也是一種勝利。
圖片來源:吉姆哈維
溝通技巧是資料科學家絕對必須擁有的技能之一,但是關於它的評價和談論都最少。我至今還沒有遇到一個強調溝通技巧的課程。您可以學習所有最新技術,掌握多種工具並製作優秀的圖表,但如果您無法向客戶解釋你的成功,您將會是失敗的資料科學家。
不僅僅是客戶,您有可能與不熟悉資料科學的團隊成員合作 – IT,人力資源,財務,運營等。可以肯定的是面試官也會特別注意這一點。
假設您使用邏輯迴歸構建了信用風險模型。作為一個思考練習,花一點時間思考如何向非技術人員解釋你是如何得出最終結論的。如果你使用過任何術語,你需要儘快開展這項工作!
如今大多數資料科學家都來自電腦科學背景,所以我理解這可能是一項令人生畏的技能。但要成為一名成功的資料科學家並爬上階梯,你別無選擇,只能磨練自己個性的這一部分。
我覺得最有用的一件事就是向非技術人員解釋資料科學術語。它可以幫助我衡量我認識問題的清晰度。如果您在中小型公司工作,請在營銷或銷售部門找一個人並與他們一起做這個練習。從長遠來看,它將極大地幫助你提升。
網際網路上有大量的免費資源可以幫助您入門,但請記住,練習是提升技能的關鍵。從今天就開始吧!
這絕對不是一個詳盡的清單 – 胸懷抱負的資料科學家還可能犯許多其他錯誤。但以上這些是最常見的,如前所述,我的目標是幫助大家儘可能的避免這些問題。