如何使用R進行資料展現?且看使用iris資料視覺化例項

shenmanli發表於2017-08-14
iris資料的詳細介紹如下:


首先,要檢視iris資料集的大小和結構,其維度和名稱分別使用函式dim 和names獲取,函式str 和attributes返回資料的結構和屬性。


dim(iris)
names(iris)
str(iris)
attributes(iris)


接下來,檢視資料的前五行,返回第一和最後一行,使用head和tail


iris[1:5,]
head(iris)
tail(iris)


還可以查詢某一列的值:


例如,下面的兩行程式碼可用來獲取到Sepal.Length的前10個值。
iris[1:10, "Sepal.Length"]
iris$Sepal.Length[1:10]


每一個數值型變數的分佈情況,可用函式summary進行檢視。該函式的返回值是變數中的最小值、最大值、平均值、中位數、第一四分位數(25%)和第三四分位數(75%)。
對於因子(或分類變數)而言,函式返回的是每一個等級水平的頻數。
summary(iris)


平均值、中位數和極差也可以分別使用函式mean、median和range獲取,獲取四分位數和百分位數可以使用quantile函式,程式碼如下所示:


quantile(iris$Sepal.Length)
quantile(iris$Sepal.Length, c(.1, .3, .65))


接下來,使用函式var檢視Sepal.Length的方差,使用hist繪製分佈直方圖,使用函式density計算密度估計值。
var(iris$Sepal.Length)
hist(iris$Sepal.Length)

密度圖
plot(density(iris$Sepal.Length))



餅圖
因子的頻數可以由函式table計算,然後使用函式pie繪製餅圖,繪製條形圖。或使用函式barplot繪製條形圖。
table(iris$Species)
pie(table(iris$Species))



條形圖
barplot(table(iris$Species))



檢視了單個變數的分佈後,還需要展現兩個變數之間的關係。下面使用函式cov和cor 分別計算變數之間的協方差和相關係數。
cov(iris$Sepal.Length, iris$Petal.Length)
cov(iris[,1:4])
cor(iris$Sepal.Length, iris$Petal.Length)
cor(iris[,1:4])


接下來,使用函式aggregate計算每一個鳶尾花種(species)的sepal.Lellgth的統計資料。


aggregate(Sepal.Length ~ Species, summary, data=iris)


然後,使用函式boxplot繪製盒圖(又稱為盒形-虛線圖),以展示資料分佈的中位數、第一四分位數和第三四分位數(即累積分佈中的位於50%、25%、75%位置上的點),以及離群點。


盒圖中間的橫線表示中位數。圖示四分位差(IQR),即第三四分位數(75%)與第一四分位數(25%)的差值。
boxplot(Sepal.Length~Species, data=iris)

相關文章