《應用迴歸及分類》學習筆記1

賣山楂啦prss發表於2020-10-11

吳喜之老師編寫的《應用迴歸及分類》這本書,第一章談到了傳統統計出現的問題(比如以模型而不是資料為主導的研究方式(模型驅動的研究和教學模式)),以及許多統計相關的誤區。

讀完這部分,覺得自己學習統計學接近4年,確實沒有認真的思考過這些問題,或者說批判性的去學習統計,在運用方法的時候有些生搬硬套。其實,隨著學習的深入,我越發感受到統計學的博大精深,它並不是表面所理解的那麼簡單容易,涉及的知識面相當廣泛,是一個交叉性學科。

書中提到,學習不要一味的按步就班,還是需要批判性的學習。

作為科學的統計

統計是科學,從實際出發,解決實際問題,是理學、工學、社會科學三學一體的學科,可以定義為“收集、分析、展示和解釋資料的科學”,或稱資料科學

資料科學要結合數學思維和統計思維、電腦科學以及領域知識(業務能力)

統計的思維方式是歸納,而數學的思維方式是演繹。

統計研究應該是問題驅動而不是資料驅動


大部分統計教材在具體“應用”時,通常是建立在假設基礎上的,比如資料服從正態分佈等,實際中,大部分資料真的服從這些規定的假設?

  • 中心極限定理有誤區(中心極限定理:來自某總體的一個樣本,無論該總體服從什麼分佈,只要樣本容量足夠大,其樣本均值都近似服從正態分佈。注意“樣本均值“近似正態,而不是樣本本身服從正態)
  • 均值的誤區

假設檢驗的誤區

不能拒絕就接受原假設

對假設檢驗統計結論,不能說“接受原假設”,只能說“目前沒有足夠的證據拒絕原假設”。

對於接受原假設的說法是非常荒謬的,書中,吳老師舉了一個非常淺顯易懂的例子,1-50或1-500的自然數來自正態分佈嗎?

還有一點是,Shapiro-Wilk正態性檢驗要比K-S正態性檢驗效率高。

P值得誤區

p小於0.05就有意義?

通常,所學的課本中有P值小於顯著性水平時,應拒絕原假設,但對於P值要多小才算小概率,或者說P值小於多少才能算顯著的問題,往往具有主觀性,也就是說,拒絕與否取決於顯著性水平α的取值,α取0.05還是0.01…,需要從問題的性質出發,不能盲目判定。

置信區間的誤區

通過區間估計得到的置信區間含義,不能理解為總體真值落入這個區間或者區間包含這個真值的概率!

可以理解為:
假設 顯著性水平為α,對無窮多個不同樣本可以得出無窮多個區間,大約有1-α比例的置信區間覆蓋總體真值,或者包含總體真值

更簡單的說,給定α=0.05,現獨立重複的進行100次試驗,可以得到100個區間,大約有95個置信區間包含總體真值,至於到底哪些區間包含,誰也不知道。

大樣本誤區

在接觸的教材用,通常有 n>30 即視為大樣本,實際上這種說法是錯誤的,甚至有些荒謬,樣本量多大才算是大樣本,這很難界定,就像書中老師所說,誰能夠說清楚你的n與∞差多遠呢?

大樣本定理的結論對於樣本量n趨於∞才有意義。

31省市自治區資料是總體還是樣本?

書中提到的觀點,確實值得反思

  • 31個省市自治區資料僅僅是一些彙總資料,根本不是樣本,因此完全不滿足任何適用於樣本的統計推斷方法

  • 31個省市自治區資料互相根本不獨立.

  • 由於不是任何總體的樣本,更談不上分佈及正態性

  • 對於31個省市自治區的資料,使用任何超出描述性統計方法的做法都值得懷疑

補:統計學常見誤區

相關文章