資料分析的三大時間軸:過去、現在和未來

趙鈺瑩發表於2018-08-15

很多人用不同的定義解釋“資料科學”,貌似都很合理,對資料科學這個問題的思考可以聯想到與之相關的其他領域,例如業務分析、資料分析、商業智慧、高階分析、機器學習,還有人工智慧。

資料科學的“絕對定義”需要大量的“資料科學”背景才能被理解,這是一個遞迴的問題……可以說,統計學家或程式設計師理解什麼是資料科學要容易得多,就像歷史學家或語言學家所說的那樣,前者已經以一種或另一種形式暴露於資料科學之中。這使我們想到,資料科學的相對定義可能更有用,以下是相關看法。

這是一個描繪所有上述領域的尤拉圖。每個顏色代表一個不同的欄位(混合的顏色表示交集),圖上還有一個時間軸和使用案例。

(矩形的位置、大小和顏色表現出概念上的相似性和差異,而不是複雜性)

下面就來分析具體的概念。

一、商業

為了避免過度簡化這個問題,這裡認為“商業”這個詞沒有任何定義,而融合商業的一些應用案例則更有意思,例如商業案例研究、定性分析、初步資料包告、視覺報告、建立儀表板、銷售預測。

二、資料

考慮到最初的選擇,我們可以在業務和資料的交叉點中移動最近的四個術語,目前在圖片中表示為紫色區域。這是因為“初步資料包告”,“視覺報告”,“建立儀表板”和“銷售預測”屬於資料驅動的商業活動。外部可以基於過去的知識、經驗和行為反對存在商業活動範圍內的“商業案例研究’和‘定性分析’,但你很快就會看到——這不是真正的資料科學。

分析(Analysis)是指將你的問題分割成容易消化的區塊的過程,你可以單獨研究它們之間是如何相互關聯的。另一方面,分析(Analytics)是將邏輯和計算推理應用於分析中獲得的元件部分。在這樣做的過程中,人們在尋找模式,並經常探索人與分析能力的結合。因此,與業務,資料相反的是,我們應該要更好地使用Business Analytics和Data Analytics。

三、時間

在進一步討論之前,讓我們先介紹一個時間軸,因為這對於後續的分割是至關重要的。我們將分析三個時態——過去、現在和未來。會有一條線分割圖表,指出任何分析問題的當前時刻。左邊的分析指數代表過去,右邊的所有這些都可以進行預測分析。

“銷售預測”移到了右邊,因為它的名字暗示著一個前瞻性的分析過程。廣義的“定性分析”就是利用你的直覺和經驗來規劃你的下一步——從而寓意著未來。

資料科學是一個不能沒有資料的領域。因此,它完全屬於Data Analytics(資料分析)的範疇。它與Business Analytics(業務分析)的關係如何?嗯,事實證明,如果屬於Data Analytics和Business Analytics範疇內的,同時也的確屬於Data Science範疇。

不過,需要說明的是,存在不直接和即時業務分析但屬於資料分析的資料科學流程。例如,“優化鑽井業務”需要資料科學工具和技術。資料科學家很可能每天都這樣做。但是,雖然在“石油業務”領域,我們不能真正說它與Business Analytics直接相關。

在“相對定義”的概念上,要更好地說明這些點,“數字訊號處理”就是資料分析的一部分,但不是Data Science,也不是Business Analytics。資料、程式設計和數學開始發揮作用,但並不像我們在Data Science中使用它們一樣。為了一致性,讓我們用時間軸來完成這件事——資料科學既是左邊的,也是右邊的線(如同其他的)。這就給我們帶來了一個問題:是不是所有的領域都具有“過去屬性”?

四、商業智慧

商業智慧(BI)是分析和總結歷史資料的過程。

商業智慧(BI)是否就一定意味著過去?不一定,但它沒有涉及到預測分析。如圖所示,迴歸、分類以及其他所有典型的預測方法都屬於Data Science的一部分,但不是BI。而且,商業智慧完全是資料科學的分支,因此,當一個人在處理過去事件時,用到描述性統計、報告或視覺化時,這說明是在做BI和資料科學。

五、機器學習和人工智慧

人工智慧(AI)是由機器展示的任何形式的智慧,它類似自然(人類)智慧,例如規劃、自適應學習、解決問題等。

機器學習(ML)是不被程式設計的情況下,機器預測結果的能力。

當然,機器學習是人工智慧的一種方法,但這兩種方法常常被混淆,不可否認地是,人類目前探索的階段處於深度學習階段,這實際上也是抵達人工智慧唯一可行的路徑,因此,當我們在談論AI所使用的人工智慧的真實應用時,我們實際上是指的是深度學習。

在我們的圖表中,兩個術語符合以下方式。

可以看出,機器學習完全包含在Data Analytics(資料分析)內,如果沒有資料,它將不能執行,此外,它還與Data Science重疊,因為它是資料科學家兵庫裡最好的工具之一。此外,它還是BI的一部分,只是不涉及預測分析。

“資料科學”中的機器學習例項是“客戶端保留”、“欺詐預防”和“建立實時儀表板”(也是BI的一部分),其中突出的應用包括“語音識別”和“影像識別”。這兩者也被認為屬於資料科學範疇,這就是為什麼我們把它們放在邊界上。

為了闡述其中的關係,總體來說,機器學習完全屬於AI的一部分,但AI本身也存在一些與業務和資料分析無關的子領域,例如“符號推理”。

六、高階分析

我們分析的最後一個領域是Advanced Analytics,它不是一個資料科學名詞,而是一個營銷的名詞。它用於描述“不那麼容易處理的”分析。從本質上來說,對於一個初學者來說,這個圖表中的所有內容都是先進的。雖然不是最好的術語,但肯定我們在整個條款中使用的所有“適當”術語都是有用的。

排除AI並加入Advanced Analytics(高階分析),相信這將是極富價值的收穫。

原文釋出時間為:2018-08-14

本文來自雲棲社群合作伙伴“ 大資料地盤 ”,瞭解相關資訊可以關注“ 大資料地盤 ”。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2200148/,如需轉載,請註明出處,否則將追究法律責任。

相關文章