統計學基礎(一)

weixin_33766168發表於2018-10-22

---網易雲課堂《統計分析輕鬆入門》筆記

對於一個具體的個體/個案,其最終的結局是無法確切預計的。

當隨機現象大量重複時,便會呈現出一定的統計規律

統計學的低層次現實作用:找到某些隨機現象的發生的統計規律,從而將不確定性變為可估計可預測的待檢驗確定性結果。

基本概念

個體,變數與變異

  • 個體是統計分析根據研究目的所確定的最基本的研究單位,所以個體又稱為觀察單位
  • 根據研究目的確定研究物件,然後對研究物件的某專案或研究指標進行觀察或測量,這種被觀察的專案或研究指標稱為變數(variable)

- 變數型別:

  • 連續變數(continuous variable)

    • 連續性變數的取值範圍是一個區間,它可以在該區間中連續取值,即連續型變數可以取到區間中的任一值,並且一般有度量單位,因此有的統計書將其稱作區間變數。
  • 離散型變數(discrete variable)

    • 取值範圍是有限個值或者一個數列構成的

    • 表示分類情況的離散型變數又稱為分類變數

    • 根據類別的有序性,分類變數又可以分為有序分類和無序分類

    • 二分類為很特殊的一類,無所謂次序問題

  • 變數型別總結

  • 連續性變數:有大小之分,各取值之間的兼具明確

  • 有序分類變數:有大小之分,但是各類別間的間距大小不明

  • 無序分類變數:無大小之分,僅知道屬於不同類別

以上各型別資訊量逐漸較少

資料間型別的轉換

  • 連續變數、有序變數、無序變數間的資訊量越來越少,在丟棄一部分資訊量的前提下,可以將變數向資訊量減少的方向加以轉換

連續資料轉換為有序分類資料

有序分類資料轉換為兩分類資料

總體、樣本與隨機抽樣

總體

  • 總體(population)是根據研究目的確定的同質所有個體某指標觀察值(測量值)的集合

  • 有限總體(finite population)和無限總體(infinite population)

樣本

  • 在一個較大範圍的研究物件中隨機抽出一部分個體進行觀察或測量,這些個 體的測量值構成的集合稱為樣本(sample)

    • 大多數統計研究都只能通過接觸/抽取/樣本來研究

隨機抽樣

  • 在抽樣研究中,隨機抽出一部分個體進行觀察或測量的過程稱為隨機抽樣(random sampling)

  • 隨機抽樣的本質:每個個體最終是否入選在抽樣進行前是不可知的,但是其入選可能性是確切可知

  • 樣本抽取的最關鍵之處在於能否保證它對總體的代表性,或者說其入選概率是否確實是可知的

統計量、總體引數與抽樣誤差

  • 刻畫樣本特徵的統計指標稱為統計量(statistic)

  • 刻畫總體特徵的指標稱為總體引數(parameter),例如總體中某個指標的所有個體變數值的平均數稱為總體均數

  • 統計研究中真正希望加以研究考察的都是總體引數,但引數一般是無法直接求得的,只能從統計量的大小加以估計

  • 許多總體指標是未知的,需要用相應的樣本統計量對其進行估計。由隨機抽樣造成的樣本統計量與總體指標之間的差異稱為抽樣誤差(sampling error)

  • 雖然在一次抽樣研究中的抽樣誤差大小是隨機的,但抽樣誤差在概率意義下有規律可循,這種規律稱為抽樣分佈

概率、頻率、與小概率事件

  • 隨機事件:隨機現象某個可能的觀察結果稱為一個隨機事件

  • 頻率(frequency):觀察到的隨機事件某個結局的出現頻次/比例

  • 概率(probability):概率刻畫隨機事件發生可能性大小,其取值介於0和1之間

    • 不能被直接觀察到,但可以通過頻率估計,實驗次數越多,統計越精確
  • 在統計學中,如果隨機事件發生的概率小於或等於0.05,則認為是一個小概率事件,表示該事件在大多數情況下不會發生,並且一般認為小概率事件在一次隨機抽樣中不會發生,(小概率原理)

相關文章