第一篇:查閱資料

穆晨發表於2017-05-20

前言

       本文講解如何使用 R 語言對資料集進行總體上的瞭解。

       在進行資料探勘之前,我們有必要對挖掘的資料集物件有一個總體的瞭解。本文采用具體例項講解的方式,詳細演示對一個資料集的分析過程。

Step 1:載入資料集

       

       命令data("資料集名")可載入指定資料集。

Step 2:檢視行列名

       

       命令attributes("資料集")可列印出資料集的行/列名。本例中,bmi和chl是numeric型別,而另外兩個變數是factor型別。

Step 3:檢視特徵型別資訊

       

       命令str("資料集")可以檢視到特徵的具體型別資訊。本例中,bmi和chl是numeric型別,而另外兩個變數是factor型別。

Step 4:檢視特徵值的總體分佈情況

       

       summary("資料集")可檢視到特徵值的總體分佈情況。它會列印出各列的最大,最小,平均值,缺失值個數等資訊。

       需要特別說明的是 1st Qu,2 st Qu,3 st Qu 分別表示一分位點,二分位點,三分位點。一分位點表示四分之一處的數,二分位點表示中位數,三分位點表示四分之三處的數。

       此外,Na's 是缺失值個數。

Step 5:資料視覺化

       這部分將在下文中詳細講解。

小結

       本文只講解了資料集的總體大致流程。針對某些實際情況,也許需要掌握一些關於分佈,或者稀疏度之類的資訊,這時需要查閱其他資料分析API,這裡不再過細講述。 

相關文章