machine learning model(algorithm model) .vs. statistical model

世有因果知因求果發表於2018-08-16

 

https://www.analyticsvidhya.com/blog/2015/07/difference-machine-learning-statistical-modeling/

http://normaldeviate.wordpress.com/2012/06/12/statistics-versus-machine-learning-5-2/

https://www.quora.com/What-is-the-difference-between-statistics-and-machine-learning

machine learning is an algorithm that can learn from data without relying on rules-based programming.

Statistical modelling is formalization of relationships between variables in the form of mathematical equations.

共同的目標:

learn from data,但是statistical learning的目標更多的是從手頭上的資料學習後實現統計推斷:得出結論

不同點從以下幾個方面來闡述:

schools they come from:

machine learning是電腦科學和人工智慧的一個子領域,用於構建可以從資料中學習到model,而不需要顯示地程式設計學習rule

statistical model:是數學的一個分支,用於發現多個變數之間的關係,從而可以預測輸出

diffrent eras(不同時代的產物)

statistical modelling已經存在幾世紀的時間了,而machine learning實際上從1990年代才變得清晰,隨著計算資源便宜化和能力巨大提高而開始成為現實

假設依賴:

統計模型往往有一些預設的假設,比如一個簡單的線性迴歸模型會有以下假設:

1. 自變數和因變數之間是線性關係;

2. 隨機變數是同方差同分布

3. 因變數的誤差均值為0

4. 觀測值之間是互相獨立的;

5.每個因變數的值是正態分佈

同樣地,邏輯迴歸也會有其一堆預設的假設,只有當假設得到滿足時,模型的效果才會比較好。而機器學習演算法雖然也有部分假設,但是大大少於統計模型的假設。機器學習我們也無需指出自變數或者因變數所服從的分佈

處理的資料型別:

機器學習可以處理的資料具有wide(變數的維數),deep(樣本的數量巨大),而statistical model則僅適用於低維度,少樣本資料集的情況,否則及其容易產生過擬合。

命名正規化:

formulation:

雖然統計學模型和機器學習模型的目標是類似的,但是其最終學習的模型公式卻有明顯的區別:

對於統計模型,我們往往需要估計出特定樣式的函式f:

Dependent Variable ( Y )  = f(Independent Variable) + error function

而,對於機器學習,則直接剔除上述f,而直接從輸入到輸出(可能是線性,也可能是非線性的函式)

Output(Y)  ----- >  Input (X)

預測能力:

"自然之力不會在發生一件事情之前做出任何假設。。"

因此,在一個預測model中,越少的假設條件,預測的能力會越強。機器學習正如名字所蘊含的意義其需要更少的人為參與。機器學習通過不斷地迭代使得計算機自己發現隱藏在資料中的pattern.由於機器綜合了所有的樣本資料並且沒有任何(或僅有少量)的預定假設,因此預測能力會大大強於統計模型。統計模型更多的是數學密集並且基於係數估計,它要求建模人員本身已經理解了變數之間本身存在的關係,只有這樣建設的模型才會有用。

統計學家和機器學習工程師對模型輸出的不同描述:

  • ML professional: “The model is 85% accurate in predicting Y, given a, b and c.”
  • Statistician: “The model is 85% accurate in predicting Y, given a, b and c; and I am 90% certain that you will obtain the same result.”

 

相關文章