什麼是建模?
- 問題——>資料——>模型——>結論
統計建模的本質
收集、分析、展示、解釋資料
統計問題
- 迴歸:
橫截面資料、縱向資料 - 分類:
橫截面資料、分類資料 - 我們觀測不到真值,觀測到的資料一定有誤差。
如何確定模型?
1.根據探索性資料分析主觀確定一個引數模型或者一個演算法。
2.根據已知資料訓練/學習出引數或者演算法模型的程式。
模型是被訓練出來的
注意:
1.統計方法不能單獨使用,必須有問題的背景在
2.統計指標如果顯著,不能證明模型正確,但統計指標不顯著,則能證明模型錯誤。例如:某海灘上溺水死亡的人與冰淇淋的銷量正相關,但他們之間不能簡單的劃等號。必須有背景在。
在例如:公雞打鳴太陽上升,注意因果關係與相關關係。建模時不能再沒有任何理論依據,背景等的情況下設定假設變數。要根據文獻,尊重事件的本質規律。
縱向資料
在計量經濟學中普遍存在。空間溢位效應,經濟發展的空間溢位效應是指由具有時間和空間特徵的區域間要素流動及其衍生的文化擴散及制度環境演化導致的地區經濟活動狀態和效率發生變化的現象,當一個地區經濟發展對另一地區有利時稱為正的溢位效應,反之則是負向溢位。
分類問題
去醫院看病就是一個分類問題,就是醫生在對我們的病進行歸類。
獎學金評定也是分類問題。
考古學也是分類問題。
引數模型
所有模型都是錯的,但是有一些模型是有用的。
演算法模型
一定能算。
沒有任何模型假設,也就沒有模型假設的錯誤。好算,快。
與統計模型相比,黑匣子問題。
- 可以兩者結合使用,相互驗證。
R軟體英文參考資料
1.Vincent Zoonekynd編寫的Statistics with R
2.Modern Applied Statistics with S
國內統計教學課本的若干誤區
假設檢驗的錯誤:不能拒絕就接受
當P值被認為不夠小而不能拒絕原假設時,只能說“目前沒有足夠證據拒絕原假設”,而不能說是“接受原假設”
P值小於0.05即顯著
p值是由一個樣本算出來的,不能對其含義誇大或過分理解
置信區間問題
如果根據公式
算出來\(\mu\)的置信區間是\([a,b]\),也不能說區間[a,b]以機率 $1 -\alpha覆蓋\mu $
只能說對於無窮多個不同樣本,根據公式算出來無窮多個區間中大概有\(1-\alpha\)比例的置信區間覆蓋\(\mu\).
置信區間的前提是樣本服從獨立正態同分布的。
大樣本,小樣本
n>30即為大樣本的定義是荒唐的,該界限不好確定。
彙總資料與原始資料
能用原始觀測資料就不要用匯總資料了,彙總資料會丟失一些東西。