統計學知識闖關

AIBigbull2050發表於2020-08-11

來源:資料分析1480

本文長度為 2800字,建議閱讀 8分鐘

闖下這十關,收穫新知識!

統計學知識闖關

第1關:自由度是什麼?怎樣確定?

答:(定義)構成樣本統計量的獨立的樣本觀測值的數目或自由變動的樣本觀測值的數目。用df表示。

自由度的設定是出於這樣一個理由:在總體平均數未知時,用樣本平均數去計算離差(常用小s)會受到一個限制——要計算標準差(小s)就必須先知道樣本平均數,而樣本平均數和n都知道的情況下,資料的總和就是一個常數了。

所以, “最後一個”樣本資料就不可以變了,因為它要是變,總和就變了,而這是不允許的。

通俗點說,一個班上有50個人,我們知道他們語文成績平均分為80,現在只需要知道49個人的成績就能推斷出剩下那個人的成績。你可以隨便報出49個人的成績,但是最後一個人的你不能瞎說,因為平均分已經固定下來,自由度少一個。

第2關:正態分佈檢驗中自由度問題

答:在正態分佈檢驗中,這裡的M(三個統計量)為:N(總數)、平均數和標準差。

因為我們在做正態檢驗時,要使用到平均數和標準差以確定該正態分佈形態,此外,要計算出各個區間的理論次數,我們還需要使用到N。

所以 在正態分佈檢驗中,自由度為K-3。

第3關:t檢驗

答:t檢驗 適用於兩個變數均數間的差異檢驗,多於兩個變數間的均數比較要用方差分析。

無論哪種型別的t檢驗,都必須在滿足特定的前提條件下:  正態性和方差齊性,應用才是合理的。這是因為必須在這樣的前提下所計算出的t統計量才服從t分佈,而t檢驗正是以t分佈作為其理論依據的檢驗方法。

t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。

第4關:統計學意義(P值)

答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變數的關聯是總體中各變數關聯的可靠指標。

P值是將觀察結果認為有效即具有總體代表性的犯錯機率。如P=0.05提示樣本中變數關聯有5%的可能是由於偶然性造成的。即假設總體中任意變數間均無關聯。

我們重複類似實驗,會發現約20個實驗中有1個實驗,我們所研究的變數關聯將等於或強於我們的實驗結果。(這並不是說如果變數間存在關聯,我們可得到5%或95%次數的相同結果,當總體中的變數存在關聯,重複研究和發現關聯的可能性與設計的統計學效力有關。)

在許多研究領域,0.05的P值通常被認為是可接受錯誤的邊界水平。

第5關:如何判定結果具有真實的顯著性?

答:在最後結論中判斷什麼樣的顯著性水平具有統計學意義,不可避免地帶有武斷性。換句話說,認為結果無效而被拒絕接受的水平的選擇具有武斷性。

實踐中,最後的決定通常依賴於資料集比較和分析過程中結果是先驗性還是僅僅為均數之間的兩兩比較,依賴於總體資料集裡結論一致的支援性證據的數量,依賴於以往該研究領域的慣例。

通常,許多的科學領域中產生P值的結果≤0.05被認為是統計學意義的邊界線,但是這顯著性水平還包含了相當高的犯錯可能性。 結果 0.05≥P>0.01被認為是具有統計學意義,而0.01≥P≥0.001被認為具有高度統計學意義。但要注意這種分類僅僅是研究基礎上非正規的判斷常規。

第6關:所有的檢驗統計都是正態分佈的嗎?

答:並不完全如此,但大多數檢驗都直接或間接與之有關,可以從正態分佈中推匯出來,如t檢驗、F檢驗或卡方檢驗。這些檢驗一般都要求:所分析變數在總體中呈正態分佈,即滿足所謂的正態假設。許多觀察變數的確是呈正態分佈的,這也是正態分佈是現實世界的基本特徵的原因。

隨著樣本量的增加,樣本分佈形狀趨於正態,即使所研究的變數分佈並不呈正態。

第7關:假設檢驗的內涵及步驟

答:在假設檢驗中,由於隨機性我們可能在決策上犯兩類錯誤。

一類是假設正確,但我們拒絕了假設,這類錯誤是 “棄真”錯誤,被稱為第一類錯誤;

一類是假設不正確,但我們沒拒絕假設,這類錯誤是 “取偽”錯誤,被稱為第二類錯誤。

一般來說, 在樣本確定的情況下,任何決策無法同時避免兩類錯誤的發生,即在避免第一類錯誤發生機率的同時,會增大第二類錯誤發生的機率;或者在避免第二類錯誤發生機率的同時,會增大第一類錯誤發生的機率。人們往往根據需要選擇對那類錯誤進行控制,以減少發生這類錯誤的機率。大多數情況下,人們會控制第一類錯誤發生的機率。

發生第一類錯誤的機率被稱作顯著性水平,一般用α表示,在進行假設檢驗時,是透過事先給定顯著性水平α的值而來控制第一類錯誤發生的機率。

在這個前提下,假設檢驗按下列步驟進行:

  • 確定假設;
  • 進行抽樣,得到一定的資料;
  • 根據假設條件下,構造檢驗統計量,並根據抽樣得到的資料計算檢驗統計量在這次抽樣中的具體值;
  • 依據所構造的檢驗統計量的抽樣分佈和給定的顯著性水平確定拒絕域及其臨界值;
  • 比較這次抽樣中檢驗統計量的值與臨界值的大小,如果檢驗統計量的值在拒絕域內,則拒絕假設。

到這一步,假設檢驗已經基本完成,但是由於檢驗是利用事先給定顯著性水平的方法來控制犯錯機率的,所以對於兩個資料比較相近的假設檢驗,我們無法知道那一個假設更容易犯錯,即 我們透過這種方法只能知道根據這次抽樣而犯第一類錯誤的最大機率(即給定的顯著性水平), 而無法知道具體在多大機率水平上犯錯

計算 P值有效的解決了這個問題,P值其實就是按照抽樣分佈計算的一個機率值,這個值是根據檢驗統計量計算出來的。透過直接比較P值與給定的顯著性水平α的大小就可以知道是否拒絕假設,顯然這就代替了比較檢驗統計量的值與臨界值的大小的方法。

而且透過這種方法,我們還可以知道在p值小於α的情況下犯第一類錯誤的實際機率是多少,p=0.03<α=0.05,那麼拒絕假設,這一決策可能犯錯的機率是0.03。需要指出的是,如果P>α,那麼假設不被拒絕,在這種情況下,第一類錯誤並不會發生。

第8關:卡方檢驗的結果,值是越大越好,還是越小越好?

答:與其它檢驗一樣,所計算出的統計量越大,在分佈中越接近分佈的尾端,所對應的機率值越小。 如果試驗設計合理、資料正確,顯著或不顯著都是客觀反映。沒有什麼好與不好

第9關:在比較兩組資料的率是否相同時,二項分佈和卡方檢驗有什麼不同?

答:卡方分佈主要用於多組多類的比較,是檢驗研究物件總數與某一類別組的觀察頻數和期望頻數之間是否存在顯著差異, 要求每格中頻數不小於5,如果小於5則合併相鄰組。

二項分佈則沒有這個要求。如果分類中只有兩類還是採用二項檢驗為好。如果是2*2表格可以用fisher精確檢驗,在小樣本下效果更好。

第10關:如何比較兩組資料之間的差異性?

答:從三個方面來回答:

  • 設計型別是完全隨機設計兩組資料比較,不知道資料是否是連續性變數?
  • 比較方法:如果資料是連續性資料,且兩組資料分別服從正態分佈和方差齊性檢驗,則可以採用t檢驗,如果不服從以上條件可以採用其他檢驗。
  • 想知道兩組資料是否有明顯差異?不知道這個明顯差異是什麼意思?是問差別有無統計學意義(即差別的機率有多大)還是兩總體均數差值在哪個範圍波動?如果是前者則可以用第2步可以得到P值,如果是後者,則是用均數差值的置信區間來完成的。

作者:黎嫣

整理自:https://www.cnblogs.com/Acceptyly/p/3930006.html

本文為轉載分享,若侵權請聯絡後臺刪除

編輯:黃繼彥

校對:楊學俊

—完—







來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2710296/,如需轉載,請註明出處,否則將追究法律責任。

相關文章