明確解釋:機器學習與統計建模有何不同

AIBigbull2050發表於2020-06-04

它們彼此之間非常不同,所有資料科學家都必須瞭解原因和方式!

明確解釋:機器學習與統計建模有何不同
> Source: Inspired by a diagram from SAS Institute

這篇文章提出了一個非常重要的區別,我們應該將其理解為資料科學領域的活躍部分。 上面的維恩圖最初是由SAS Institute釋出的,但是它們的圖顯示統計和機器學習之間沒有重疊,據我所知,這是一個疏忽。 我已盡我所能和理解,重新建立了該圖。 該維恩圖非常恰當地提出了資料科學所有分支的區別和重疊。

我想相信資料科學現在是總稱,其他所有術語都可以描述為資料科學的分支,每個分支都是不同的,但與其他分支卻是如此相似!

機器學習與統計建模:這是一個古老的問題,每個資料科學家/機器學習工程師或任何在這些領域開始工作的人都會遇到。 在研究這些領域時,有時機器學習感覺與統計建模息息相關,這使我們想知道如何區分兩者,或者哪種標籤最適合哪種模型。 當然,如今機器學習已成為流行語,但這並不意味著我們開始將統計模型標記為機器學習模型,因為與流行的看法相反,它們是不同的! 讓我們詳細瞭解差異。

這篇文章的流程將是:

  • 機器學習和統計建模的定義
  • 機器學習與統計建模之間的差異
  • 什麼時候使用?
明確解釋:機器學習與統計建模有何不同

定義

機器學習

在不依賴於基於規則的程式設計的情況下,對將資料轉換為智慧動作的計算機演算法開發感興趣的研究領域稱為機器學習。

統計建模

通常將統計模型指定為一個或多個隨機變數與其他非隨機變數之間的數學關係。 因此,統計模型是"理論的形式表示"。

現在,無聊的冗長的定義已不復存在,讓我們更深入地瞭解這兩個域之間的區別。

機器學習與統計建模之間的差異

1.歷史和學術相關性

在1950年代左右,機器學習開始出現之前,統計建模就已經出現了。1950年代,第一個機器學習程式—塞繆爾(Samuel)的檢查程式引入了。

世界各地的所有大學現在都在啟動其機器學習和AI計劃,但並沒有關閉其統計部門。

機器學習與電腦科學系和獨立的AI系協同教學,它們處理構建預測演算法,這些演算法能夠透過學習從資料中"學習"而無需任何預先指定的規則,從而能夠自行"智慧化"。 上面ML的定義。

鑑於

統計建模與數學系共同教授,其重點是建立模型,該模型可以首先找到不同變數之間的關係,然後可以預測可以描述為其他自變數的函式的事件。

2.不確定度容限

這是兩個域之間重要的區別點。

在統計建模中,我們要注意許多不確定性估計(例如置信區間,假設檢驗),並且必須考慮到所有假設都必須滿足,才能信任特定演算法的結果。 因此,它們具有較低的不確定性容限。

例如:如果我們建立了線性迴歸模型,則在使用該模型的結果之前,必須檢查是否滿足以下假設:

  • 因變數和自變數之間的線性關係
  • 錯誤項的獨立性
  • 錯誤項(殘差)需要正態分佈
  • 平均獨立
  • 無多重共線性
  • 需要方差

相反,如果我們建立了邏輯模型,則必須考慮以下假設:

  • 二元邏輯迴歸要求因變數為二進位制,而序數邏輯迴歸要求因變數為序。
  • 觀察結果必須彼此獨立。
  • 無多重共線性
  • 自變數和對數奇數的線性

鑑於

在機器學習演算法中,幾乎沒有或不需要假設。 ML演算法對統計線性,殘差的正態分佈等沒有嚴格要求,因此比統計模型靈活得多。因此,它們具有較高的不確定性容限。

3.資料需求與方法

統計模型無法在非常大的資料集上進行操作,它們需要屬性較少且觀測值數量可觀的可管理資料集。 在統計模型中,屬性的數量絕不會超過10–12,因為它們極易過擬合(在訓練資料集上表現出色,但在看不見的資料上表現差強人意,因為它確實非常接近訓練資料集,這是不希望出現的情況)

此外,大多數統計模型都遵循引數化方法(例如:線性迴歸,邏輯迴歸)

鑑於

機器學習演算法是學習者演算法,要學習它們需要大量資料。 因此,他們需要具有大量屬性和觀察結果的資料。 越大越好! ML演算法在某種程度上需要大資料。

此外,大多數機器學習模型都遵循非引數方法(K最近鄰,決策樹,隨機森林,梯度提升方法,SVM等)。

什麼時候使用?

這主要取決於以下說明的因素。 我們將講解理論上的要點,並舉例說明。

在以下情況下,統計模型應該是您的首選:

  • 不確定性很低,因為當您開始構建模型時,大多數假設都已滿足
  • 資料大小不是很大
  • 如果要隔離少量變數的影響
  • 總體預測中的不確定性/邊際誤差是可以的
  • 各種自變數之間的相互作用相對較少,可以預先指定
  • 需要高解釋性

機器學習可能是更好的選擇

  • 當要預測的結果沒有很強的隨機性時; 例如,在視覺模式識別中,物件必須是E或不是E
  • 可以對無限數量的精確重複進行訓練(例如,每個字母重複1000次或將某個單詞翻譯成德語)來訓練學習演算法
  • 當以整體預測為目標時,無法描述任何一個自變數的影響或變數之間的關係
  • 人們對估計預測中的不確定性或所選預測器的影響不是很感興趣
  • 資料量巨大
  • 一個不需要隔離任何特殊變數的影響
  • 低可解釋性,模型成為"黑匣子"是可以的

例如:如果您與一家信用卡公司合作,並且他們想建立一個跟蹤客戶流失的模型,那麼他們很可能更喜歡一個統計模型,該模型將具有10–12個預測變數,他們可以根據自己的業務領域知識進行解釋和否決 ,在這種情況下,他們將不會喜歡黑盒演算法,因為對可解釋性的需求比預測的準確性更高。

另一方面,如果您正在為想要構建強大的推薦引擎的Netflix和Amazon之類的客戶工作,那麼在這種情況下,結果準確性的要求高於模型的可解釋性,因此,機器學習模型將 在這裡就足夠了。

有了這個,我們到這篇文章的結尾。

您可以在以下文章中瞭解有關資料探勘和機器學習之間的區別以及前4個機器學習演算法的完整詳細資訊:

  • 明確解釋:機器學習與資料探勘有何不同
  • 定義,混淆,區別-全部說明
  • 明確解釋:4種機器學習演算法
  • 定義,目的,流行演算法和用例-全部說明





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2696175/,如需轉載,請註明出處,否則將追究法律責任。

相關文章