資料科學家最耗費時間的工作是什麼?調查發現,三分之二的分析人員認為清理和組織資料是他們最費時的工作,52%稱他們最大的障礙是資料質量差。

資料分析師花費一半以上的時間清理和轉換資料,而不是從中提取商業智慧。資料儲存的規模不斷增大,資料型別也在激增。新一代的工具蜂擁而至,並承諾把複雜的工具送到不依賴資料的學家的手上。

技術領域最熱門的職位之一是資料科學家,或許只有最新出現的首席高管職位:首席資料科學家能超越他們。顯而易見,人們對這種趨勢一直存在質疑,來自美國科技網站InfoWorld的 Yves de Montcheuil曾引用過一則笑話,資料學家就是住在加利福尼亞州的商業分析師。

每個公司都需要把公司的資料轉換為商業智慧,這並不是什麼有趣的事,這就是資料科學家承擔主導責任的時候。但隨著資料數量和種類的激增,資料科學家發現,他們大部分的時間都花費在清理和轉換資料,而不是分析資料,並把它們告訴給企業經理。

最近,IT專案眾包公司CrowdFlower的資料科學家進行了一項調查(需要註冊可檢視)。調查發現,三分之二的分析人員認為清理和組織資料是他們最費時的工作,52%稱他們最大的障礙是資料質量差。受訪者說出了在它們工作中使用的48種不同的技術,最受歡迎的是Excel(55.6%),其次是開源語言研究(43.1%),和Tableau資料視覺化軟體(26.1%)。

1467428602-5381-95d000171866f296e1b

資料科學家認為它們最大的挑戰是清理資料花費時間,資料質量差,缺少分析時間,以及無效的資料建模。

是什麼抑制了資料分析的發展?被調查的資料科學家列舉出,包括缺少有效滿足他們工作需要的工具(54.3%),組織沒有清楚地說明目標和宗旨(52.3%),以及培訓投資不足(47.7%)。

1467428602-6907-95a0006e0696e2a6ede

來源:CrowdFlower