更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
資料科學,這個時下流行的熱詞,許多人曾嘗試用成功案例去定義它。
談起這個問題,我們就得從資料科學相關的其它領域說起——商業分析、資料分析、商業智慧、先進分析、機器學習以及最後的 AI。
我們意識到資料科學的“絕對定義”需要知道許多“資料科學”的背景才能理解,這是一個死迴圈……這裡的假設是統計學家或程式設計師對資料科學的理解比歷史學家或語言學家容易得多,因為前者已經以某種形式接觸過資料科學。
基於這個假設,或許資料科學的“相對定義”更有意義,這也是本文的目的所在。
下面這個尤拉圖描述了上文中提到的所有領域的關係,每種顏色代表了不同的領域(混合的顏色代表交叉學科),橫座標代表了時間軸,每塊區域代表了使用案例。
圖 1:每個方形區域的位置、形狀和顏色表示了概念上的相似性和不同點,不是複雜度
資訊量很大,我們從頭開始。
為避免將這個問題過於簡單化,我們假設“商業”這個詞不需要定義,一些商業行為的例子如下:
商業案例研究
定性分析
初始資料包告
視覺化報告
儀表盤建立
銷售預測
以上這些都在藍色的區域中
這裡才是尤拉圖真正的開始,如果我們將資料加入到這幅圖中,我們會得到 2 個大的領域以及它們的交叉學科,總共 3 個部分。
有了初始的術語選擇,我們就可以將最後四個商業和資料的交叉術語放進來了,也就是目前圖中的紫色區域。由於“初始資料包告”,“建立儀表盤”和“銷售預測”都是資料驅動的商業行為。
與之相對的是“商業案例研究”和“定性分析”,這兩個術語雖然也在商業範疇之內,但是基於過去的知識、經驗和行為,也很重要,但你很快就能知道這不是真正的資料科學。
分析指的是將你的問題分隔為易處理的小塊,每一塊都可以單獨研究,並監測各塊之間的關係。
另一方面,分析學就是邏輯和計算的推理應用於分析中獲得的組成部分。並且在這個過程中,人們會尋找模式,還會研究未來這種模式的用途。
所以,相比業務和資料,我們更應該好好使用商業分析和資料分析。
在進一步討論之前,我們來引入時間軸,這對後面的部分很重要。
我們會使用三個狀態——過去,現在和未來。
圖中有一條豎線代表著對於任何分析學問題中現在的時刻,豎線左邊代表向過去的分析學,豎線右邊代表著預測分析。
分析中最後的兩個部分就可以加入到圖中來了。
“銷售預測”在右邊,從名字就可以看出是一個向前看的分析過程。很明顯,“定性分析”是利用你的直覺和經驗規劃下一步行動,所以是另一個向前看的術語。
對於大多數讀者來說,下面將進入本文的高潮部分。資料科學是一個不能沒有資料的領域,所以它會完全處在圖中資料分析的區域內。
那麼它和商業分析的關係是怎樣的呢?
結果就是同屬於資料分析和商業分析的部分必然是資料科學。
但是請注意,有的資料科學過程並不直接是商業分析,但卻是資料分析。比如“鑽井作業優化”需要資料科學工具和技術,屬於資料科學家的日常工作。但是在石油行業中,我們不能將其和商業分析關聯起來。
為了更好的理解這一點,可以引入“相關定義”的概念。“數字訊號處理”屬於資料分析的行為,但不是資料科學,也不是商業分析。資料,程式和數學都在資料科學中發揮著作用,但扮演著不同的角色。
和上面保持一致,我們使用時間軸來結束這一部分——資料科學同時存在於過去和未來的部分。
這也帶來了另一個問題:有沒有一個領域是隻面向過去的?
商業智慧是分析和報告過去的資料的過程。
它是面向過去的嗎?不一定,但是商業智慧中不包含預測分析。迴歸、分類和其它所有的典型的預測方法都是資料科學的一部分,但不屬於商業智慧。這也決定了那條豎線的位置。
並且,商業智慧是資料科學的真子集,所以當人們在處理描述性統計,過去事件的報告或視覺化問題時,他的行為既屬於商業智慧,也屬於資料科學。
這裡的定義會有一點模糊,因為解釋這兩個概念會讓本文失去重點,而且關於機器學習的概念有很多資料,特別是在 KDnuggets 上。
人工智慧(AI)是機器模仿自然(人類)智慧所表現出來的任何的智慧形式,比如計劃、學習、解決問題等。
機器學習(ML)是機器在沒有被明確程式設計去這樣做時,預測結果的能力。
ML 是 AI 的一種方式,但是兩者經常被混淆,因為根據目前為止人類研究的研究成果,ML 是唯一能達到 AI 的可行路徑。
在圖中,這兩個術語在以下位置。
機器學習完全屬於資料分析,因為其沒有資料就不能被執行。它和資料科學也有交叉,因為它是資料科學家最好用的工具之一。最後,它也有商業智慧的屬性,涉及預測性分析的部分除外。
ML 在資料科學中的例子是“客戶留存”,“防欺詐”和“建立實時儀表盤”(也是 BI 的一部分)。代表性的例子包括“語音識別”和“影像識別”,既屬於又不屬於資料科學,所以我們將其放在了邊界位置。
總結起來就是:ML 完全屬於 AI,但 AI 有一部分領域甚至和商業、資料分析完全沒有關係,比如“符號推理”。
在我們的分析中最後一塊領域是先進分析,相比資料科學,這更像是一個市場術語。它經常被用來描述“不是那麼容易被處理”的分析。主觀上來說,對於一個新手來說,本圖中所有的資訊都是先進性的。雖然不是最好的術語,但很適合用來彙總本文中所有提到的“合適的”術語。
去除了 AI,加上先進分析,就是下圖。
引用文中的術語,我們關於先進分析的分析就完成了。
以下是對比這些概念的 gif 動圖。
檢視英文原文:
https://www.kdnuggets.com/2018/05/data-science-machine-learning-business-analytics.html