資料分析的三大時間軸:過去、現在和未來
很多人用不同的定義解釋“資料科學”,貌似都很合理,對資料科學這個問題的思考可以聯想到與之相關的其他領域,例如業務分析、資料分析、商業智慧、高階分析、機器學習,還有人工智慧。
資料科學的“絕對定義”需要大量的“資料科學”背景才能被理解,這是一個遞迴的問題……可以說,統計學家或程式設計師理解什麼是資料科學要容易得多,就像歷史學家或語言學家所說的那樣,前者已經以一種或另一種形式暴露於資料科學之中。這使我們想到,資料科學的相對定義可能更有用,以下是相關看法。
這是一個描繪所有上述領域的尤拉圖。每個顏色代表一個不同的欄位(混合的顏色表示交集),圖上還有一個時間軸和使用案例。
(矩形的位置、大小和顏色表現出概念上的相似性和差異,而不是複雜性)
下面就來分析具體的概念。
一、商業
為了避免過度簡化這個問題,這裡認為“商業”這個詞沒有任何定義,而融合商業的一些應用案例則更有意思,例如商業案例研究、定性分析、初步資料包告、視覺報告、建立儀表板、銷售預測。
二、資料
考慮到最初的選擇,我們可以在業務和資料的交叉點中移動最近的四個術語,目前在圖片中表示為紫色區域。這是因為“初步資料包告”,“視覺報告”,“建立儀表板”和“銷售預測”屬於資料驅動的商業活動。外部可以基於過去的知識、經驗和行為反對存在商業活動範圍內的“商業案例研究’和‘定性分析’,但你很快就會看到——這不是真正的資料科學。
分析(Analysis)是指將你的問題分割成容易消化的區塊的過程,你可以單獨研究它們之間是如何相互關聯的。另一方面,分析(Analytics)是將邏輯和計算推理應用於分析中獲得的元件部分。在這樣做的過程中,人們在尋找模式,並經常探索人與分析能力的結合。因此,與業務,資料相反的是,我們應該要更好地使用Business Analytics和Data Analytics。
三、時間
在進一步討論之前,讓我們先介紹一個時間軸,因為這對於後續的分割是至關重要的。我們將分析三個時態——過去、現在和未來。會有一條線分割圖表,指出任何分析問題的當前時刻。左邊的分析指數代表過去,右邊的所有這些都可以進行預測分析。
“銷售預測”移到了右邊,因為它的名字暗示著一個前瞻性的分析過程。廣義的“定性分析”就是利用你的直覺和經驗來規劃你的下一步——從而寓意著未來。
資料科學是一個不能沒有資料的領域。因此,它完全屬於Data Analytics(資料分析)的範疇。它與Business Analytics(業務分析)的關係如何?嗯,事實證明,如果屬於Data Analytics和Business Analytics範疇內的,同時也的確屬於Data Science範疇。
不過,需要說明的是,存在不直接和即時業務分析但屬於資料分析的資料科學流程。例如,“優化鑽井業務”需要資料科學工具和技術。資料科學家很可能每天都這樣做。但是,雖然在“石油業務”領域,我們不能真正說它與Business Analytics直接相關。
在“相對定義”的概念上,要更好地說明這些點,“數字訊號處理”就是資料分析的一部分,但不是Data Science,也不是Business Analytics。資料、程式設計和數學開始發揮作用,但並不像我們在Data Science中使用它們一樣。為了一致性,讓我們用時間軸來完成這件事——資料科學既是左邊的,也是右邊的線(如同其他的)。這就給我們帶來了一個問題:是不是所有的領域都具有“過去屬性”?
四、商業智慧
商業智慧(BI)是分析和總結歷史資料的過程。
商業智慧(BI)是否就一定意味著過去?不一定,但它沒有涉及到預測分析。如圖所示,迴歸、分類以及其他所有典型的預測方法都屬於Data Science的一部分,但不是BI。而且,商業智慧完全是資料科學的分支,因此,當一個人在處理過去事件時,用到描述性統計、報告或視覺化時,這說明是在做BI和資料科學。
五、機器學習和人工智慧
人工智慧(AI)是由機器展示的任何形式的智慧,它類似自然(人類)智慧,例如規劃、自適應學習、解決問題等。
機器學習(ML)是不被程式設計的情況下,機器預測結果的能力。
當然,機器學習是人工智慧的一種方法,但這兩種方法常常被混淆,不可否認地是,人類目前探索的階段處於深度學習階段,這實際上也是抵達人工智慧唯一可行的路徑,因此,當我們在談論AI所使用的人工智慧的真實應用時,我們實際上是指的是深度學習。
在我們的圖表中,兩個術語符合以下方式。
可以看出,機器學習完全包含在Data Analytics(資料分析)內,如果沒有資料,它將不能執行,此外,它還與Data Science重疊,因為它是資料科學家兵庫裡最好的工具之一。此外,它還是BI的一部分,只是不涉及預測分析。
“資料科學”中的機器學習例項是“客戶端保留”、“欺詐預防”和“建立實時儀表板”(也是BI的一部分),其中突出的應用包括“語音識別”和“影像識別”。這兩者也被認為屬於資料科學範疇,這就是為什麼我們把它們放在邊界上。
為了闡述其中的關係,總體來說,機器學習完全屬於AI的一部分,但AI本身也存在一些與業務和資料分析無關的子領域,例如“符號推理”。
六、高階分析
我們分析的最後一個領域是Advanced Analytics,它不是一個資料科學名詞,而是一個營銷的名詞。它用於描述“不那麼容易處理的”分析。從本質上來說,對於一個初學者來說,這個圖表中的所有內容都是先進的。雖然不是最好的術語,但肯定我們在整個條款中使用的所有“適當”術語都是有用的。
排除AI並加入Advanced Analytics(高階分析),相信這將是極富價值的收穫。
原文釋出時間為:2018-08-14
本文來自雲棲社群合作伙伴“ 大資料地盤 ”,瞭解相關資訊可以關注“ 大資料地盤 ”。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2200148/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Dun:資料的過去、現在和未來
- RTS的過去,現在和未來
- 資料驅動的圖形學:過去、現在和未來
- The Chinese Room的過去、現在和未來OOM
- ABAP 真的會過時嗎?聊聊 ABAP 的過去,現在和未來
- 2019年進行時,實時分析雲端計算的過去、現在和未來
- 關於COBOL的過去,現在和未來
- Pravega Flink connector 的過去、現在和未來
- 《黑色沙漠Online》的過去、現在和未來
- 對話Apache Hudi VP, 洞悉資料湖的過去現在和未來Apache
- 饒軍:Apache Kafka的過去,現在,和未來ApacheKafka
- Web攻擊日誌分析的過去現在與未來Web
- AI晶片的過去、現在與未來AI晶片
- 賽博格簡史:過去、現在和未來
- 尖峰對話:人工智慧的過去、現在和未來人工智慧
- [譯]伯克利談serverless:過去,現在和未來Server
- 對話每日互動CEO方毅:資料智慧應用的過去、現在和未來
- 物聯網的演變,物聯網的過去、現在和未來
- Serverless 可觀測性的過去、現在與未來Server
- COBOL六十週年紀念:過去,現在和未來 -Vlad Mihalcea
- VR的過去、現在和未來——OC6之後VR將何去何從VR
- 位元組跳動資料庫的過去、現狀與未來資料庫
- HTAP資料庫技術的現在和未來資料庫
- 1024程式設計師節“JavaScript 的過去、現在和未來”線上直播程式設計師JavaScript
- 成立15年,《模擬火車》開發商的過去、現在和未來
- 解碼中國創新:過去、現在與未來
- 資料智慧的現在與未來
- Crazy Labs大中華區總監:超休閒遊戲的過去、現在和未來遊戲
- 騰訊雲資料庫TDSQL-大咖論道 | 基礎軟體的過去、現在、未來資料庫SQL
- Flutter 中通過 Container 實現時間軸效果FlutterAI
- 向死而生:中國獨立遊戲的過去、現在與未來遊戲
- 遊戲戰略思考:成長和增長、Valve及Steam的過去現在及未來遊戲
- Steam 盜號背後產業的過去、現在和將來產業
- 時間軸、流程類時間軸繪製
- 基礎設施即程式碼的過去和未來
- 2022-過去與未來
- 時間軸
- 從天性到神性:虛擬現實的過去與未來