《應用迴歸及分類》學習筆記1
吳喜之老師編寫的《應用迴歸及分類》這本書,第一章談到了傳統統計出現的問題(比如以模型而不是資料為主導的研究方式(模型驅動的研究和教學模式)),以及許多統計相關的誤區。
讀完這部分,覺得自己學習統計學接近4年,確實沒有認真的思考過這些問題,或者說批判性的去學習統計,在運用方法的時候有些生搬硬套。其實,隨著學習的深入,我越發感受到統計學的博大精深,它並不是表面所理解的那麼簡單容易,涉及的知識面相當廣泛,是一個交叉性學科。
…
書中提到,學習不要一味的按步就班,還是需要批判性的學習。
作為科學的統計
統計是科學,從實際出發,解決實際問題,是理學、工學、社會科學三學一體的學科,可以定義為“收集、分析、展示和解釋資料的科學”,或稱資料科學。
資料科學要結合數學思維和統計思維、電腦科學以及領域知識(業務能力)
統計的思維方式是歸納,而數學的思維方式是演繹。
統計研究應該是問題驅動而不是資料驅動
大部分統計教材在具體“應用”時,通常是建立在假設基礎上的,比如資料服從正態分佈等,實際中,大部分資料真的服從這些規定的假設?
- 中心極限定理有誤區(中心極限定理:來自某總體的一個樣本,無論該總體服從什麼分佈,只要樣本容量足夠大,其樣本均值都近似服從正態分佈。注意“樣本均值“近似正態,而不是樣本本身服從正態)
- 均值的誤區
假設檢驗的誤區
不能拒絕就接受原假設
對假設檢驗統計結論,不能說“接受原假設”,只能說“目前沒有足夠的證據拒絕原假設”。
對於接受原假設的說法是非常荒謬的,書中,吳老師舉了一個非常淺顯易懂的例子,1-50或1-500的自然數來自正態分佈嗎?
還有一點是,Shapiro-Wilk正態性檢驗要比K-S正態性檢驗效率高。
P值得誤區
p小於0.05就有意義?
通常,所學的課本中有P值小於顯著性水平時,應拒絕原假設,但對於P值要多小才算小概率,或者說P值小於多少才能算顯著的問題,往往具有主觀性,也就是說,拒絕與否取決於顯著性水平α的取值,α取0.05還是0.01…,需要從問題的性質出發,不能盲目判定。
置信區間的誤區
通過區間估計得到的置信區間含義,不能理解為總體真值落入這個區間或者區間包含這個真值的概率!
可以理解為:
假設 顯著性水平為α,對無窮多個不同樣本可以得出無窮多個區間,大約有1-α比例的置信區間覆蓋總體真值,或者包含總體真值
更簡單的說,給定α=0.05,現獨立重複的進行100次試驗,可以得到100個區間,大約有95個置信區間包含總體真值,至於到底哪些區間包含,誰也不知道。
大樣本誤區
在接觸的教材用,通常有 n>30 即視為大樣本,實際上這種說法是錯誤的,甚至有些荒謬,樣本量多大才算是大樣本,這很難界定,就像書中老師所說,誰能夠說清楚你的n與∞差多遠呢?
大樣本定理的結論對於樣本量n趨於∞才有意義。
31省市自治區資料是總體還是樣本?
書中提到的觀點,確實值得反思
-
31個省市自治區資料僅僅是一些彙總資料,根本不是樣本,因此完全不滿足任何適用於樣本的統計推斷方法
-
31個省市自治區資料互相根本不獨立.
-
由於不是任何總體的樣本,更談不上分佈及正態性
-
對於31個省市自治區的資料,使用任何超出描述性統計方法的做法都值得懷疑
補:統計學常見誤區
相關文章
- 整合學習(1)AdaBoost分別應用於分類和迴歸及其python實現Python
- Python學習筆記-StatsModels 統計迴歸(1)線性迴歸Python筆記
- 機器學習筆記-多類邏輯迴歸機器學習筆記邏輯迴歸
- Andrew NG 深度學習課程筆記:二元分類與 Logistic 迴歸深度學習筆記
- 【《白話機器學習的數學》筆記1】迴歸機器學習筆記
- 學習筆記——機器學習演算法(一): 基於邏輯迴歸的分類預測筆記機器學習演算法邏輯迴歸
- 機器學習筆記(2): Logistic 迴歸機器學習筆記
- Logistic 迴歸-原理及應用
- 深度學習筆記002-線性迴歸深度學習筆記
- 機器學習演算法:Logistic迴歸學習筆記機器學習演算法筆記
- 機器學習(三):理解邏輯迴歸及二分類、多分類程式碼實踐機器學習邏輯迴歸
- 李巨集毅機器學習課程筆記-4.1分類簡介及其與迴歸的區別機器學習筆記
- 分類演算法(1)-LR邏輯迴歸演算法邏輯迴歸
- 吳恩達機器學習筆記 —— 7 Logistic迴歸吳恩達機器學習筆記
- 【機器學習筆記】:大話線性迴歸(二)機器學習筆記
- 【機器學習筆記】:大話線性迴歸(一)機器學習筆記
- 【機器學習基礎】CART--分類迴歸樹完全解讀機器學習
- 【動手學深度學習】第三章筆記:線性迴歸、SoftMax 迴歸、交叉熵損失深度學習筆記熵
- Python機器學習筆記:使用Keras進行迴歸預測Python機器學習筆記Keras
- 【火爐煉AI】機器學習009-用邏輯迴歸分類器解決多分類問題AI機器學習邏輯迴歸
- 機器學習入門學習筆記:(2.1)線性迴歸理論推導機器學習筆記
- 「學習筆記」迴圈、列表筆記
- 學習筆記1筆記
- 學習筆記-1筆記
- 【學習筆記】並查集應用筆記並查集
- 「分數規劃」學習筆記及做題記錄筆記
- 吳恩達機器學習筆記 —— 3 線性迴歸回顧吳恩達機器學習筆記
- 機器學習(課堂筆記)Day04:線性迴歸法機器學習筆記
- 機器學習程式碼筆記-2-簡單線性迴歸機器學習筆記
- WEKA把分類(Classification)和迴歸(Regression)
- 差分學習筆記筆記
- 分塊學習筆記筆記
- k8s學習筆記(1)- 簡單部署springboot應用K8S筆記Spring Boot
- 分類演算法-邏輯迴歸與二分類演算法邏輯迴歸
- node事件迴圈學習筆記事件筆記
- 吳恩達機器學習筆記 —— 2 單變數線性迴歸吳恩達機器學習筆記變數
- 吳恩達機器學習筆記 —— 5 多變數線性迴歸吳恩達機器學習筆記變數
- Python學習筆記-StatsModels 統計迴歸(3)模型資料的準備Python筆記模型