在當今的大資料時代,利用資料科學理論進行資料分析起著越來越重要的作用。探討不同資料技巧型別和熟練程度對相關專案有著怎樣的影響也開始具有重要意義。近日,AnalyticsWeek的首席研究員、Bussiness Over Broadway的總裁Bob Hayes博士就公開了研究資料分析專案成功所必需技能的相關結果。Bob所提出的基於技能的資料科學驅動力矩陣方法,可以指出最能改善資料科學實踐的若干技能。

資料技能的熟練程度

首先,Bob在AnalyticsWeek的研究包含了很多向資料專家提出的,有關技能、工作角色和教育水平等有關的問題調查。該調查過程針對5個技能領域(包括商業、技術、程式設計、數學和建模以及統計)的25個資料技能進行,將其熟練程度劃分為了6個等級:完全不知道(0分)、略知(20分)、新手(40)、熟練(60分)、非常熟練(80分)和專家(100分)。這些不同的等級就代表了資料專家給予幫助或需要接受幫助的能力水平。其中,“熟練”表示剛好可以成功完成相關任務,為某個資料技能所能接受的最小等級。“熟練”以下的等級表示完成任務還需要幫助,等級越低需要的幫助越多;而“熟練”以上的等級則表示給予別人幫助的能力,等級越高給予的幫助可以更多。

1-1

Bob列出了4中不同工作角色對於25種不同資料技能的熟練程度。從上圖可以看出,不同領域的專家對其領域內技能的掌握更加熟練。然而,即使是資料專家對於某些技能的掌握程度也達不到“熟練”的程度。例如,上圖中淺黃色和淺紅色區域都在60分以下。這些技能包括非結構化資料、NLP、機器學習、大資料和分散式資料、雲管理、前端程式設計、優化、概率圖模型以及演算法和貝葉斯統計。而且,針對以下9種技能,只有一種型別的專家能夠達到熟練程度——產品設計、商業開發、預算編制、資料庫管理、後端程式設計、資料管理、數學、統計/統計建模以及科學/科學方法。

並非所有的資料技能都同等重要

接下來,Bob繼續探討了不同資料技能的重要性。為此,AnalyticsWeek的研究調查了不同資料專家對其分析專案結果的滿意程度(也表示專案的成功程度):從0分到10分,其中0分表示極度不滿意,10分表示極度滿意。

對於每一種資料技能,Bob都將資料專家的熟練程度和專案的滿意度進行了關聯。下表就列出了4種工作角色的技能關聯情況。表中關聯度越高的技能就表示該技能對專案成功的重要性越高。而表中上半部分的技能相比於下半部分的技能對於專案結果更加重要。從表中可以看出,商業管理者和研究者的資料技能和專案結果的滿意度關聯度最高(平均r=0.30),而開發人員和創新人員的關聯度只有0.18。此外,四種工作角色中不同資料技能之間的平均關聯度只有0.01,表明對於一種資料專家是必須的資料技能對於其他資料專家未必是必須的。

2-1

資料科學驅動力矩陣:圖形化結果

基於熟練程度和關聯度的結果,Bob繪出了資料科學驅動力矩陣(Data Science Driver Matrix,DSDM)的示意圖。其中,x軸代表所有資料技能的熟練程度,y軸代表技能與專案結果的關聯度,而原點則分別對於熟練程度的60分和關聯度的0.30。

3-1

結果解讀:改善資料科學的實踐

在DSDM中,每一種資料技能都會落在其中的一個象限中。由此,這種技能所代表的含義也就不同。

  1. 象限1(左上):該區域內的技能對於專案結果非常重要,但熟練程度卻不高。那麼,通過聘請掌握相關技能的資料專家或者加強相關技能的員工培訓,專案就可以取得很好的改進。
  2. 象限2(右上):該區域內的技能對於專案結果非常重要,而掌握的熟練程度也不低。
  3. 象限3(右下):該區域內的技能對於專案結果而言為非必須,但掌握的熟練程度較高。因此,需要避免在這些技能上的過度投入。
  4. 象限4(左下):該區域內的技能對於專案結果而言為非必須,掌握的熟練程度也不高。但是,仍然沒有必須要加強對這些技能的投入。

對於不同資料角色的DSDM

Bob針對商業管理者、研究者、開發人員和創新人員4中角色分別建立了DSDM,並主要關注落在第一象限的技能。

  1. 商業管理者對於商業管理者而言,第一象限中的技能包括統計學/統計建模、資料探勘、科學/科學方法、大資料和分散式資料、機器學習、貝葉斯統計、優化、非結構化資料、結構化資料以及演算法。而沒有任何技能落在第二象限。

    4-1

  2. 開發人員對於開發人員,只有系統管理和資料探勘兩種技能落在第一象限。絕大部分技能都落在第四象限。

    5-1

  3. 創新人員對於創新人員,共有數學、資料探勘、商業開發、概率圖模型和優化等五種技能落在第一象限。而絕大部分技能都落在第四象限。

    6-1

  4. 研究者對於研究者,共有演算法、大資料和分散式資料、資料管理、產品設計、機器學習和貝葉斯統計等五種技能落在第一象限。而落在第二象限的技能卻很少。

    7-1

結論

從以上的研究中,Bob得到以下結論:

  1. 無論是對於哪個領域的專家,資料探勘對於專案結果都十分重要。
  2. 商業管理者和研究者可以通過改善資料技能來增加資料分析專案的滿意度。
  3. 某些特殊的資料技能對於一些分析專案的結果非常重要。

除此之外,Bob還提出團隊合作對於專案成功也有著非凡的意義。


來自:InfoQ中文站