3.3 資料整理的原則
無論臨床研究,實驗室研究,或者其他各種方式獲得的資料,在匯入統計學軟體之前,都要問一下自己,格式對不對?你的軟體能夠識別嗎?
注:這裡是指統計學軟體,像R之類具有強大指令碼功能的,不能歸到統計學軟體之列,咳咳,他們只是包括統計學軟體罷了~
在最終在資料操作、視覺化、建模之前,都要保證資料格式是規範化的,能夠被相應程式識別的。
達到這一目的,實際上有三條小的規則,說來容易,做來難的規則:
就是要求,每一個資料表都
- 每一個變數構成一列
- 每一個觀測構成一行
- 每一類觀測單元構成一個資料表
這一規則可以保證同一個觀測的不同變數都出現在同一行。
相關定義:
值:資料集的構成單位,或者是數字,或者是字串(eg.姓名)。
值按照兩種方法組織,每個值都要屬於一個變數和一個觀測。
變數:包含相同屬性的測量值。
觀測:包含統一單位的所有屬性值。
上面兩段都有些生硬,可憐現代資料科學的母語不是中文。
通俗來講:就是說,每一個觀察物件(或樣本)構成一行;所有觀察物件同一個屬性,構成一列。
如此,在探索變數間相互關係時,使用同一行的不同變數;在進行組間比較時,使用同一列的變數(當然,要配合分組變數相應列)。
相關文章
- 有關資料驗證的原則
- 資料治理的目標和原則
- 資料治理的十二條技術原則
- 提升資料安全的五大原則
- 企業主資料治理的“五化”原則
- 對待資料質量的28個原則
- 資料庫設計原則與方法資料庫
- 我設計資料庫常用的幾個原則資料庫
- mysql資料庫最佳化需要遵守的原則MySql資料庫
- 資料領域,甲方和乙方分工的18個原則
- 資料庫入門之RDS選擇原則資料庫
- c語言中的資料型別的自動轉換原則C語言資料型別
- 大資料的分散式機器學習的策略與原則大資料分散式機器學習
- OCP原則——開閉原則
- CDGA認證|資料治理和數字化的12項原則
- 讀資料工程之道:設計和構建健壯的資料系統07資料架構的原則架構
- 資料庫整理資料庫
- 物件導向設計的六大原則(SOLID原則)-——里氏替換原則物件Solid
- 正則問題整理
- 重構的原則
- 2.2.1.1 共性的原則
- 設計原則:開閉原則(OCP)
- MySQL資料庫的索引原理、與慢SQL優化的5大原則MySql資料庫索引優化
- 必知必會的設計原則——介面隔離原則
- 設計原則-依賴反轉原則
- SOLDI原則之DIP:依賴倒置原則
- 設計原則之【介面隔離原則】
- 設計原則:介面隔離原則(ISP)
- 運維相關的資料整理運維
- 重寫遵循的原則
- oop原則OOP
- SOLID原則Solid
- 設計模式的七大原則(5) --開閉原則設計模式
- 十步法原則解決資料質量問題
- 資料是新石油,提煉新石油要遵循四個原則
- 軟體設計原則—介面隔離原則
- 軟體設計原則—合成複用原則
- 設計原則之【單一職責原則】
- 設計原則之【開放封閉原則】