1458816213-2509-8839141a7be62b9b966183feb-th

根據三位作者的諮詢和研究經驗,以及與許多大資料和分析主題的公司合作,瞭解一個良好的資料科學傢俱有哪些主要特徵。

大資料分析已經滿天都是,IBM專案,每天產生2.5兆位元組的資料。這意味著90%的資料在過去的兩年裡被創造出來。Gartner projects預測,到2015年,85%的500強的企業將無法利用大資料的競爭優勢,並且大約有440萬個工作崗位將圍繞大資料建立起來。

雖然這些預測不能夠在絕對意義上進行解釋,但是他們代表無所不在的大資料,以及需要分析的能力和資源的強有力的指示。因為隨著資料堆積,管理和分析這些資料資源的最佳方式,已經成為創造競爭優勢和戰略槓桿的關鍵成功因素。為了應對這些挑戰,公司正在招聘資料科學家,然而在業內,對於什麼是優秀的資料科學家卻存在著很大的誤解和分歧。以下是一個優秀的資料科學家的主要構成特點:

1458816213-1598-cda401fe474b94711a40f613fd82

資料科學家應該是一個優秀的程式設計師

根據定義,資料科學家與資料打交道。這涉及到大量的活動,如取樣和處理的資料,模型估計和後期處理(如敏感性分析,模型部署,迴歸測試,模型驗證)。雖然在當今的市場上,很多使用者易於掌握的軟體工具是自動化的,但是每一個分析都需要用量身定製的步驟來解決特殊的業務問題。為了成功執行這些步驟,就需要程式設計來解決了。

1458816213-4623-46dddfe8401e8c62f0c510c5034f

一個資料科學家應該有紮實的定量技能

一個資料科學家應該有統計,機器學習以及資料探勘的背景。不同學科之間的區別越來越模糊,但是實際上並不是相關的。他們都提供了一套定量的技術來分析資料,並且在特定的背景下(如風險管理,欺詐檢測,營銷分析……),找到業務相關的模式。資料科學家應該知道哪些技術可以怎樣利用並知道應該何時應用。他/她不應該把焦點放在基礎數學(例如優化)的細節上,而是對分析問題的解決方法有一個很好的理解,以及如何解釋它的結果。這裡,培訓一個電腦科學及商業/工業工程的工程師,目標應該是一個綜合的,多科學觀點,隨著最近這兩種技術的使用梯度形成的,以及能夠根據必要的商業觸覺帶來新的努力成果。

1458816213-7207-d0767aef4e579ef83e14e0ab9205

在這樣的背景下,同樣重要的是,花足夠多的時間來驗證分析結果,從而避免經常被提及到的資料資訊及資料曲解,這些資料是(有意的)歪曲並且過於集中精力討論虛假的相關性,當選擇最佳的定量技術時,資料科學家應該考慮到業務問題的特殊性。

典型的分析模型的要求是:

行動能力(多大程度解決分析模型的業務問題?)

效能(分析模型的統計效能是什麼?)

解釋能力(是否可以很容易地為決策者解決分析模型?)

運作效率(需要多少努力來建立,評估和監測分析模型?)

法規遵從(是否符合規定的模型)以及經濟成本(簡歷,執行和維護的成本是什麼?)。

根據這些要求的組合,資料科學家應該能夠選擇最佳的分析技術來解決業務問題。

一個資料科學家應該善於溝通與視覺化的技能

不管你喜歡不喜歡,分析是一種技術性的鍛鍊。在這個時候,分析模型和商業使用者之間有一個巨大的差距。為了彌補這個差距,溝通和定量技能的視覺化設施是關鍵!

因此,資料科學家應該知道如何提出分析模型和他們的附隨統計以及易於使用者使用方式的報告。例如,交通燈的方法,聯機分析處理設施,”如果-然後”業務規則,……他/她應該能夠在不迷失複雜的細節(如統計)的情況下傳達適當的資訊量,這些細節將會阻礙一個成功模型的部署。這樣做,企業使用者將會更好地瞭解他們的特點和在他們行為下的大資料,這將提高他們的態度並接受分析模型的結果。

教育機構必須學會平衡,因為它已經有很多的學術學位,以及因為過度分析或過度練習實踐知識的學生而知名了。

1458816213-5431-5c17473e4cfe86f55e34d98b7ec5

一個資料科學家應該有一個堅實的商業認識

瞭解業務是必須的。我們見證了許多資料科學專案失敗了,因為各自的分析師不理解手上的業務問題。通過”業務”,我們指的是,例如如果各自的資料被分析,那麼在一個真實的商業,或天文學,或醫學的環境下進行客戶流失預測或信用評分。

資料科學家應該是具有創造性的

一個具有創意的科學家至少需要兩個層次的創造力。首先,在技術層面上,在特徵選擇,資料轉換和清洗資料方面具有創造性是非常重要的。標準知識發現過程的步驟必須適用於每一個特定的應用程式,通常”正確的猜測”可能會產生很大的差異。其次,大資料分析是一個快速發展的領域!新的問題,新的技術和相應的挑戰都出現在正在進行的基礎上。一個資料科學家需要不斷創新以適應這些新技術是非常重要的,並有足夠的創造力去了解他們如何創造新的商機。

結論:

我們提供了一個簡短的特點概述去尋找一個優秀的科學家。總之,由於大資料分析的多學科性質,資料科學家應該擁有一個混合的技能:程式設計,定量建模,溝通和視覺化,業務理解能力以及創造力!下圖顯示瞭如何表達這些的檔案。

1458816213-8092-274414611aba962330ca96f5e-th

圖:資料科學家簡介

來自:36大資料翻譯