資料科學、機器學習、人工智慧的區別到底是什麼?

AI前線發表於2019-02-27
本文由 「AI前線」原創,原文連結:資料科學、機器學習、人工智慧的區別到底是什麼?
作者| David Robinson
編譯 | 嚴子怡
編輯|Emily

AI 前線導讀:”當我向別人介紹我是一個資料科學家的時候,我常常聽到這樣的疑問:“這和機器學習有什麼區別?”或是“這是不是意味著你在做人工智慧?”。我已經回答過太多次這樣的問題。我回答的次數已經達到我事不過三的原則。”


David Robinson 的推文:

當你把相同的程式碼寫了三遍時,請寫一個函式。當你面對面的給過了 3 次完全相同的建議時,請寫一篇博文。

這些領域之間的確有很大程度上的重合。並且,這其中的每一個領域都存在大量的炒作,以至於選擇使用哪一個詞這件事好像是一個跟營銷有關的問題。但是,它們並不是可以隨意互換的。 即使很難用語言表達出來,大多數這些領域裡的專家都能憑直覺地理解哪些工作屬於資料科學,哪些工作屬於機器學習或者人工智慧。

因此,在這篇文章中,我提出了一個非常簡單的關於這三個領域之間區別的定義:

  • 資料科學產生洞見
  • 機器學習產生預測
  • 人工智慧產生行動

要澄清的是,這不是一個充分條件:不是所有符合某個定義的東西就屬於這個領域。(算命先生也產生預測,但我們絕不會認為它們在做機器學習!)這些定義也不是很好的確定一個人的角色和工作的方式(“我是一個資料科學家嗎?”),這樣的問題是與個人關注的方向和經歷有關的。(這對於任何一個關於工作的描述都是對的:我的工作的一部分是寫作但我不是一個專業的作家)。

但是,我認為這些定義在用於區分這三種型別的工作時是非常有用的。並且當你談起這些知識時,這些定義可以讓你避免自己聽起來很蠢。值得注意的是,我採取的是描述主義而不是規定主義的方法:我感興趣的並不是這些術語“應該是什麼意思”,而是這個領域的人通常是如何使用它們的。


資料科學產生洞見

資料科學與其他兩個領域的區別在於它的目標其實是人的目標:獲得洞見和理解。Jeff Leek 對資料科學能達到的哪些型別的洞見有一個非常好的定義 ,包括描述性(“普通客戶有 70%的可能去續費”),探索性(“不同的銷售人員有不同的續費率”)和因果關係(“隨機化的實驗表明分配給 Alice 的客戶比分配給 Bob 的客戶更有可能續費”)。

再次強調,並非所有產生洞見的都被認為是資料科學(資料科學的經典定義是,它是統計學、軟體工程和領域專業知識的組合)。但是我們可以用這個定義把它與機器學習和 AI 區分開來。主要的區別在於,在資料科學的工作流程中,總是存在一個人:這個人正在理解這些洞見,觀察圖表,或者從結論中受益。所以,我們不能說“我們的象棋演算法使用資料科學來選擇下一步怎麼走”或“Google 地圖使用資料科學來推薦行車路線”。

因此,這個關於資料科學的定義強調:

  • 統計推斷
  • 資料視覺化
  • 實驗設計
  • 領域知識
  • 溝通

資料科學家可能會使用簡單的工具:他們可以報告百分比,並根據 SQL 查詢製作線圖。他們還可以使用非常複雜的方法:他們可能會使用分散式資料儲存來分析數以萬億計的記錄,開發尖端的統計技術,並構建互動式視覺化。無論他們使用什麼,他們的目標是更好地瞭解他們的資料。


機器學習產生預測

我認為機器學習是一個關於預測的領域:“給定某個具有特定特徵的例項 X,預測 Y”。這些預測可能是關於未來(“預測這個病人是否會患敗血症”),但是它們也可能是一些計算機不容易理解的特質(“預測這個影像是否有鳥 ”)。幾乎所有的 Kaggle 比賽都是機器學習問題:他們提供一些訓練資料,然後看看參賽選手是否能夠對新的例子做出準確的預測。

資料科學和機器學習之間有很多重疊。例如,邏輯迴歸可以用來獲取有關關係的洞見(“使用者越有錢,他們購買我們的產品的可能性越大,所以我們應該改變我們的營銷策略”),並做出預測(“這個使用者有 53%的可能性購買我們的產品,所以我們應該把這個產品推薦給他“)。

像隨機森林這樣的模型可解釋性稍差。因此,它更像是屬於機器學習和深度學習等難以解釋的方法。如果你的目標是提取洞見而不是做出預測,這些方法可能會阻礙你的工作。因此,我們可以想象一個包含資料科學和機器學習的“光譜”,在其之上,易於解釋的模型偏向於資料科學這邊,而“黑盒”的模型在機器學習那一邊。

資料科學、機器學習、人工智慧的區別到底是什麼?

大多數從業者能夠非常舒適地在兩個任務之間來回切換。我在工作中同時使用了機器學習和資料科學:我可能會使用 Stack Overflow 的流量資料訓練出來的模型來確定哪些使用者可能正在尋找工作(這是機器學習),但是也會構建概括性描述和視覺化來檢查為什麼模型能夠正確工作(這是資料科學)。這項工作是發現你的模型中的缺陷,並與演算法偏差作鬥爭的一個重要途徑。這是為什麼資料科學家經常負責開發產品的機器學習元件。


人工智慧產生行動

人工智慧是迄今為止這三個領域中最古老也是最廣為人知的,因此定義它是最具挑戰性的。這個詞語被大量的炒作所包圍,這要緣於研究人員,記者以及尋求金錢或關注的創業公司。

Baron Schwartz 的推文:

當你在融資時,它是 AI;當你在招聘時,它是機器學習;當你在寫程式碼時,它是線性迴歸;當你在調 bug 時,它是 printf()

這讓我內心產生了很不幸的抗拒情緒。因為這意味著一些應該被稱為 AI 的工作沒有被當作 AI。一些研究人員甚至抱怨 AI 的效應:“AI 是我們現在還無法做到的”【腳註 1】。那麼我們可以把什麼工作稱作 AI?

“人工智慧”定義中的一個共同點是自主行動主體執行或推薦行動(例如 Poole,Mackworth 和 Goebel 1998,Russell and Norvig 2003)。一些我認為應該描述為 AI 的系統包括:

  • 遊戲演算法(深藍,AlphaGo)
  • 機器人和控制理論(運動規劃,行走雙足機器人)
  • 優化演算法(Google 地圖選擇路線)
  • 自然語言處理(機器人【腳註 2】)
  • 強化學習

同時,我們可以看到人工智慧有很多與其他領域重疊的部分。深度學習在實現機器學習到 AI 的跨越這一方面特別引人注意。典型的用例是對資料進行訓練,然後進行預測,但它卻在 AlphaGo 等遊戲演算法中獲得了巨大的成功。(這與之前的遊戲系統形成了鮮明的對比,比如深藍,它更專注於探索和優化後續的解空間)。

但他們之間也有區別。如果我分析一些銷售資料,發現某一行業的客戶比其他行業的客戶續費的更多(提取洞見),我的輸出是一些數字和圖表,而不是一個特定的行動。(主管人員可能會用這些結論來改變我們的銷售策略,但這種行動不是自主的)這意味著我將會把我的工作形容為資料科學。如果我說:我正在“使用 AI 來改善我們的銷售情況”,那將是非常尷尬的。

Dave Gershgorn 的推文:

請不要看到一個只是訓練過模型的人就說他掌握了 AI 的力量。

人工智慧和機器學習之間的區別有點微妙,歷史上機器學習經常被認為是 AI 的一個子領域(尤其是計算機視覺被視作一個經典的 AI 問題)。但是我認為機器學習領域在很大程度上已經從 AI 脫離開來了,部分原因在於上面所說的抗拒情緒:大多數從事預測問題的人不喜歡把自己形容為 AI 研究人員。(有助於實現許多重要的機器學習領域突破的知識,大都來自統計學。而統計學在 AI 領域的其他部分的出現則很少)。這意味著,如果你可以把一個問題描述為“從 Y 預測 X”,我建議避免使用 AI 這個術語。

Amy Hoy 的推文:

按照現在的定義,y=mx+b 是一個可以告訴你一條直線該往哪兒延伸的 AI 機器人。


案例學習:三者如何一起使用?

假設我們正在建造一輛自動駕駛汽車,並且我們正在研究如何停在標誌停車旁這樣一個具體的問題。我們需要分別在這三個領域中使用以下技能。

  • 機器學習:汽車必須使用攝像頭識別停車標誌。我們構建了包含數百萬個街邊物體照片的資料集,並且訓練一個演算法來預測其中哪一個有停車標誌。
  • 人工智慧:一旦我們的車能識別停車標誌,就需要決定何時採取剎車的動作。過早或過晚地剎車都是很危險的,我們需要演算法能夠處理不同的道路條件(例如,在一條光滑的道路上,它能認識到它現在不能足夠快地減速),這是一個控制理論問題。
  • 資料科學:在街頭測試中,我們發現汽車的效能不夠好,出現了一些本應該正確地停在停車標誌旁的假陰性結果。分析街上的測試資料後,我們獲得的洞見是假陰性所佔的比率取決於測試在一天的什麼時間進行:自動駕駛車很可能在日出前或日落後錯過停止標誌。我們意識到,我們的大部分訓練資料僅包含日光充足環境下的物件。因此我們構建了包含夜間影像的資料集並再次從機器學習那一步開始做起。

腳註:

  • 不可否認現在很多人把人工智慧通常與能夠跨越多個不同領域執行任務的通用人工智慧相混淆,甚至與超越人類智慧的超人工智慧相混淆。這對任何現在稱為“AI”的系統都提出了不切實際的期望。
  • 這裡所說的“機器人”是指一個能夠解釋自然語言,然後以某種方式回應的系統。它不同於文字挖掘,其目標是從中獲取洞見(資料科學),也不同於文字分類,其目標是對文件進行分類(機器學習)。

檢視英文原文:

varianceexplained.org/r/ds-ml-ai/

更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。


相關文章