3.3 資料整理的原則

bambu發表於2014-04-07

無論臨床研究,實驗室研究,或者其他各種方式獲得的資料,在匯入統計學軟體之前,都要問一下自己,格式對不對?你的軟體能夠識別嗎?
注:這裡是指統計學軟體,像R之類具有強大指令碼功能的,不能歸到統計學軟體之列,咳咳,他們只是包括統計學軟體罷了~

在最終在資料操作、視覺化、建模之前,都要保證資料格式是規範化的,能夠被相應程式識別的。

達到這一目的,實際上有三條小的規則,說來容易,做來難的規則:
就是要求,每一個資料表都

  • 每一個變數構成一列
  • 每一個觀測構成一行
  • 每一類觀測單元構成一個資料表
    這一規則可以保證同一個觀測的不同變數都出現在同一行。

相關定義:
值:資料集的構成單位,或者是數字,或者是字串(eg.姓名)。
值按照兩種方法組織,每個值都要屬於一個變數和一個觀測。
變數:包含相同屬性的測量值。
觀測:包含統一單位的所有屬性值。

上面兩段都有些生硬,可憐現代資料科學的母語不是中文。
通俗來講:就是說,每一個觀察物件(或樣本)構成一行;所有觀察物件同一個屬性,構成一列。

如此,在探索變數間相互關係時,使用同一行的不同變數;在進行組間比較時,使用同一列的變數(當然,要配合分組變數相應列)。

相關文章