學習資料科學並沒有什麼神祕之處

OReillyData發表於2017-04-07

編者注:對於嚮往“獨角獸”技能的人士,歡迎在2016年9月27日(星期二)參加紐約Strata + Hadoop World大會,跟隨Jerry Overton學習“實用資料科學:設計資料驅動的業務提升的最佳實踐,使之成為現實從而推動企業的變革”的教程。在課程裡可以學習如何構建和執行資料戰略、如何編寫演算法以及如何在企業級別上進行實驗。

有些人可以想出用資料來提升企業業務的方法。這些人可以解釋這些方法並使之變為現實,從而影響他們機構的變革。儘管他們的工作是編寫和修改程式碼,但他們是可以(或至少是努力的)從容地跟主管們對話。我們有時稱他們為“獨角獸”,這是因為他們擁有的綜合技能可以說是神祕的、神奇的…和難以想象的。

但是我不認為碰到一些希望自己的工作對人們有確實影響的人是一件不尋常的事。我也不認為學習資料科學技能有什麼神祕之處。你可以在這個15小時的講座和視訊中瞭解機器學習的基礎知識。你可以通過20個小時(為期一個月,每天45分鐘)的專注的強化訓練變得對大部分機器學習技能有相當的瞭解。

所以一個“獨角獸”甚至是專業資料科學家基本上是可以被培訓出來的。雖然學習所有的相關技能是很難的,但是也非常簡潔明。在O’Reilly的夥伴幫助下,我們在紐約Strata + Hadoop World大會上為那些嚮往學習“獨角獸”的技能的人設計了一個教程“實用資料科學:設計資料驅動的業務提升的最佳實踐,並使之成為現實從而推動企業的變革”。本教程的宗旨是幫助你通過採納以下最優秀的習慣,來讓你在通往專業資料科學家的道路上少走彎路。

5. 放棄技術棧思維

資料科學中使用的工具和技術通常被稱為一個技術棧。技術棧是一個問題,因為它會使你被技術問題而不是業務問題所激勵。當你關注於一個技術棧時,你會問類似這樣的問題“這個工具可以跟那個工具相連嗎?”或者“我需要什麼樣的硬體裝置來安裝這個產品?”。這些都是重要的問題,但是它們不是能夠激勵一個專業資料科學家的問題。

資料科學領域的專業人員傾向於將工具和技術看作是一個有洞察力的應用程式的一部分而不是一個技術棧。專注於構建一個應用程式會迫使你基於應用程式需要產生的洞察來選擇技術元件。基於應用程式的思維,你會問類似這樣的問題“我需要做什麼來發現一個新見解?”和“這個技術是否會讓我更接近我的業務目標?”。

640?wx_fmt=png

圖1 資料科學工具和技術是一個有洞察力的應用程式的元件,而不是一個技術棧。圖片來源:Jerry Overton

在紐約Strata + Hadoop World大會的課程中,我會教授從技術棧思維轉向有洞察力的應用程式思維的簡單策略。

4. 保證資料的供給

資料科學故事通常是以它們實際發生的相反順序來被講述的。在寫得很好的故事中,作者會以一個重要的問題開頭,引導你通過收集資料來回答問題,描述實驗步驟,展示最終結論。但在真正的資料科學實踐中,故事通常是在有人檢視已有資料並提出問題開始的:“嘿,我想知道我們是否可以利用這些資料做一些很酷的事情呢”?這個問題帶來了變革,進一步帶來了構建有用的事情,以及帶來尋找可能的受益人。大部分工作是致力於彌合發現的新見解和利益相關者的需求之間的差距。但是當講述故事的時候,讀者經歷的是從利益相關者的需求到新見解的發現的平滑過程。

你提出的問題通常是你可以訪問足夠的資料來回答的問題。真正的資料科學通常需要一個健全的可自由裁量資料的儲存系統。在本教程中,我會介紹構建和使用資料通道來確保你始終有足夠的資料來做一些有用的事情。

3. 有一個策略

資料策略常會與資料治理混淆。當我想到策略時我就會想起國際象棋。想要玩國際象棋你必須知道遊戲規則,但如果想要贏,你必須有一個策略。你必須知道“D2的卒可以移動到D3,除非在D3有阻礙或者這個移動會使國王暴露而被直接攻擊”這個規則。但是僅知道這個規則並不能幫助我走出致勝的一步。我真正需要的模式是能幫助我把棋子放在更好的位置以贏得比賽的模式:“如果我可以讓我的車和後在棋盤的中間連在一起,那麼我就可以迫使對手的國王陷入一個角落的陷阱裡”。

640?wx_fmt=png

圖2 一個資料策略圖。資料策略與資料治理不同。你需要一個策略圖來執行資料策略。 圖片來源:Jerry Overton

國際象棋的這個經驗也適用於利用資料來贏得比賽。專業的資料科學家明白,要贏得比賽必須有一個策略;要建立一個策略必須要有一個策略圖。在本教程中我們會介紹如何根據最重要的業務問題來構建策略圖、建立資料策略以及執行基於應用程式思維的策略。

2. 黑客

這裡的黑客當然不是指從事破壞性或者非法的活動,我是指拼湊出有用的解決方案(的能力)。專業的資料科學家通常需要快速構建解決方案。雖然工具可以使你更有效率,但是僅僅工具本身並不會在你需要時帶來高效。

想要達到專業資料科學家的水平,你必須掌握黑客的藝術。你需要善於運用已有資源來產生新的、最小可行的資料產品。在紐約我們會介紹一些能將資料產品組合在一起,並構建你能理解的、適合目標的解決方案的技術。

1. 實驗

對於實驗,我不是指簡單嘗試不同的事情然後看看會發生什麼。我的意思是用科學方法指導的更正式的實驗。還記得你在小學科學課上做的那些實驗、寫的那些報告和在課堂上做的那些演講麼?對,就像那樣。

進行實驗並評估結果是資料科學家發揮影響力的最有效的方法之一。我發現在企業裡,好的故事和巨集圖並不足以說服他人來採用新的方法。我發現能強大到足以影響變革的唯一方法就是一個成功的案例。很少有人願意嘗試新的方法除非它被證明是成功的。你沒法證明一種方法的成功除非你讓人們來嘗試它。走出這種惡性迴圈的方法就是進行一系列的小實驗。

640?wx_fmt=png

圖3. 小而持續性的實驗是一個資料科學家影響變革的最有效的方法之一。圖片來源:Jerry Overton

在紐約Strata + Hadoop World大會的教程中,我們還會學習在非常短的衝刺階段進行實驗的技術,這會迫使我們專注於發現新見解並在小而有意義的批次中來提升企業。

我們正處於大資料領域的一個新階段的開端。這一階段與大規模資料的獲取和儲存的技術細節關係不大,而與發現有影響力的可擴充套件的新見解更相關。能適應和學會讓資料得到充分利用的機構將會一如既往地超越同行。能夠構思資料驅動的業務提升,使它們變為現實並驅動變革的人才是企業最需要的。我不知道有多少人真正有興趣接受這個挑戰,但我真的期待遇到他們。

This article originally appeared in English: "There’s nothing magical about learning data science".

640?wx_fmt=jpeg

Jerry Overton

Jerry Overton是CSC的資料科學家和傑出工程師(CSC是下一代IT解決方案的全球領導者)。Jerry是CSC高階分析研究的負責人,也是其高階分析實驗室的創始人。在他的部落格“做資料科學”中,Jerry分享了他在資料科學領域開拓研究的寶貴經驗。




Strata Data Conference北京站已經開啟註冊系統,閱讀原文可瀏覽截止到目前為止的講師名單和已經確認的議題,最優惠票價期截止到5月5日為止儘快註冊以確保留位

640?wx_fmt=png

640?wx_fmt=png


相關文章