資料並非都是正態分佈:三種常見的統計分佈及其應用

deephub發表於2024-06-09

你有沒有過這樣的經歷?使用一款減肥app,透過它的圖表來監控自己的體重變化,並預測何時能達到理想體重。這款app預測我需要八年時間才能恢復到大學時的體重,這種不切實際的預測是因為應用使用了簡單的線性模型來進行體重預測。這個模型將我所有過去的體重資料進行平均處理,然後繪製一條直線預測未來的體重變化。然而,體重減輕通常不會呈線性發展,使用更復雜的數學模型,如泊松迴歸,可能會更加貼近真實情況。

在探討體重減輕的模型時,我們通常會遇到各種統計分佈,其中最常見的是正態分佈和泊松分佈。正態分佈,因其鐘形的機率密度函式而廣為人知,常用於描述自然現象中的隨機變數,比如人的體重。它假設資料圍繞一箇中心值(平均值)對稱分佈,並且資料的分散程度(標準差)決定了分佈的寬窄。

在處理計數資料,如一定時間內的體重變化次數時,泊松分佈則顯得更為合適。泊松分佈用於描述在固定時間或空間內發生的獨立事件的數量,適用於預測罕見事件。這在體重管理應用中尤為重要,因為體重的減少往往是非連續和間歇性的,可能受多種因素影響,如飲食、運動習慣等。

https://avoid.overfit.cn/post/b077cb768e8e4f869f543d832deb7365

相關文章