第二篇：R語言資料視覺化之資料塑形技術

穆晨發表於2016-03-29

原文網址 : https://www.cnblogs.com/muchen/p/5332359.html

前言

繪製統計圖形時，半數以上的時間會花在呼叫繪圖命令之前的資料塑型操作上。因為在把資料送進繪圖函式前，還得將資料框轉換為適當格式才行。

本文將給出使用R語言進行資料塑型的一些基本的技巧，更多技術細節推薦參考《R語言核心手冊》。

資料框塑型

1. 建立資料框 - data.frame()

# 建立向量p
p = c("A", "B", "C")
# 建立向量q
q = 1:3
# 建立資料框：含p/q兩列
dat = data.frame(p, q)

結果展示：

2. 檢視資料框資訊 - str()

# 展示資料集dat資訊
str(dat)

結果展示：

3. 向資料框新增列

基本格式為：資料框$新列名 = 向量名。如下程式碼將在dat資料集中建立名為newcol的列，並將向量v賦值給它：

dat$newcol = v

如果向量長度小於資料框的行數，R會重複這個向量，直到所有行被填充。

4. 從資料框中刪除列

可以將NULL賦值給某列即可。如下程式碼將刪除資料集中的badcol列：

dat$badcol = NULL

也可以使用subset函式(後面會具體講)，並將一個減號至於待刪除的列前：

dat = subset(data, select = -badcol)

5. 重新命名資料框中的列名

可以將列名稱向量賦值給names函式：

names(dat) = c("name1", "name2", "name3")

如果想通過列名重新命名某一列可以這樣：

# 將名為ctrl的列更名為Cntrol
names(anthoming)[names(anthoming) == "ctrl"] = c("Cntrol")

6. 重排序資料框的列

可以通過數值位置重排序：

# 通過列的數值位置重排序
dat = dat[c(1,3,2)]

也可以通過列的名稱重排序：

# 通過列的名稱重排序
dat = dat[c("col1", "col3", "col2")]

7. 從資料框提取子集 - subset()

如下R語言程式碼從climate資料框中，選定Source屬性為"Berkeley"的記錄的"Year"、"Anomaly10y"兩列：

# subset函式：首參選定資料集, Source引數選定行，select參選定列
subset(climate, Source == "Berkeley", select = c(Year, Anomaly10y))

因子水平塑型

1. 根據資料的值改變因子水平順序 - reorder()

下面這個例子將根據count列對spray列中的因子水平進行重排序，彙總資料為mean：

# reorder函式：首參選定因子向量，次參選定排序依據的資料向量，FUN引數選定彙總函式
iss$spray = reorder(iss$spray, iss$count, FUN = mean)

2. 改變因子水平的名稱 - revalue() / mapvalues() in plyr包

如下兩行R語言程式碼均可將水平因子f中名為"small"，"medium"，"large"的因子分別更名為"S"，"M", "L"：

# 方法一
f = revalue(f, c(small = "S", medium = "M", large = "L"))
# 方法二
f = mapvalues(f, c("small", "medium", "large"), c("S", "M", "L"))

3. 去掉因子中不再使用的水平 - droplevels()

如下R語言程式碼將剔除掉因子f中多餘的水平：

droplevels(f)

變數塑型

1. 變數替換 - match()

要將某些值替換為其他特定值，可使用match函式。如下R語言程式碼將資料框pg的group列的oldvals中的"ctr1"，"trt1"，"trt2"的值分別替換為"No"，"Yes"，"Yes"：

# 舊值
oldvals = c("ctrl1", "trt1", "trt2")
# 新值
newvals = factor(c("No", "Yes", "Yes"))
# 替換
pg$treatment = newvals[match(pg$group, oldvals)]

2. 分組轉換資料 - ddply() in plyr包

通過使用ddply()函式的transform引數功能，能夠對不同分組內的資料進行轉換。如下R語程式碼能夠將cabbages資料框按照Cult列因子進行分組，並在資料框中建立一個新的名為DevWt的列，該新列值由原某列值減分組均值得到：

# ddply函式：首參選定資料框，次參選定分組變數，叄參選定處理方式，肆參輸出新列
cb = ddply(cabbages, "Cult", transform, DevWt = HeadWt - mean(HeadWt))

3. 分組彙總資料 - ddply() in plyr包

通過使用ddply()函式的transform引數功能，能夠對不同分組內的資料進行彙總。彙總和上面介紹的轉換的區別在於彙總結果的記錄數等於分組的個數，而轉換操作後記錄數是不變的，只是對原列進行改動轉換。如下R語言程式碼將cabbages資料框按照Cult和Date列因子進行分組，並在資料框中建立一個新的名為DevWt的列，該新列值由對每個分組進行均值統計得到：

# ddply函式：首參選定資料框，次參選定分組變數，叄參選定處理方式，肆參輸出新列
cb = ddply(cabbages, c("Cult", "date"), summarise, Weight = mean(HeadWt))

長/寬資料塑型

1. 寬資料 -> 長資料 - melt() in reshape2包

anthoming資料集如下所示：

其中expt和ctrl兩列可以合併為一列。合併後的資料框相對合並前的叫長資料，而合併前的資料框相對合並後的資料叫寬資料，是不是很貼切呢？

如下R語言程式碼使用melt函式將上述資料集"拉長"：

# melt函式：首參選定資料框，次參選定記錄標識列，variable.name選定拉長後的屬性名列，value.name選定拉長後的屬性值列
melt(anthoming, id.vars = "angle", variable.name = "condition", value.name = "count")

拉長後的效果：

2. 長資料 -> 寬資料 - dcast() in reshape2包

plum資料集如下所示：

該資料框中length列和time列作為標識列，如下R語言程式碼可將該資料框壓扁：

# dcast函式：首參選定資料框，次參選定記錄標識列和新的屬性名列，value.var選定被拉長的屬性值列
dcast(plum, length + time ~ survival, value.var = "count")

壓扁後的效果：

小結

在呼叫任何影象繪製函式之前，都要按照繪圖函式的要求擺放好資料，這個過程也被稱為資料塑型。本文的部分功能可能讀者會疑惑有啥用，彆著急，先進入到有趣的繪製章節部分吧。隨著繪圖次數增多，慢慢就會懂了。

前端之圖形學-1 資料視覺化
2019-04-16
前端視覺化
人力資源資料視覺化技術架構
2018-12-03
視覺化架構
資料視覺化的藝術
2018-05-22
視覺化
資料視覺化常用圖形都有哪些（一）
2019-03-11
視覺化
資料視覺化常用圖形都有哪些（二）
2019-03-11
視覺化
資料視覺化常用圖形都有哪些（三）
2019-03-11
視覺化
資料視覺化常用圖形都有哪些（四）
2019-03-11
視覺化
SoviChart資料視覺化：條形圖（Bar chart）
2022-12-06
視覺化
前端er必須掌握的資料視覺化技術
2021-12-22
前端視覺化
開發技術分享：美團R語言資料運營實戰！
2018-08-03
R語言
視覺化之資料視覺化最強工具推薦
2023-02-27
視覺化
分形、分形幾何、資料視覺化、Python繪圖
2021-03-13
視覺化Python繪圖
R語言批量建立資料框
2018-09-28
R語言
R語言資料質量分析
2024-03-21
R語言
綻放資料視覺化之美
2019-05-11
視覺化
資料視覺化【十五】
2020-10-14
視覺化
資料看板視覺化
2022-12-15
視覺化
Matlab資料視覺化
2021-04-08
Matlab視覺化
R語言連線資料庫（MySQL)
2018-07-06
R語言資料庫MySql
R語言入門與資料分析
2024-04-20
R語言
資料視覺化能否代替資料分析
2021-12-01
視覺化
資料血緣系列（3）—— 資料血緣視覺化之美
2024-07-10
視覺化
R語言：KEGG富集、視覺化教程，附程式碼
2024-06-14
R語言視覺化
乾貨：如何看穿資料視覺化的謊言
2018-04-23
視覺化
什麼是資料視覺化，為什麼資料視覺化很重要？
2022-03-14
視覺化
資料視覺化--實驗五：高維非空間資料視覺化
2021-01-01
視覺化
R語言學習-高階資料管理
2019-01-23
R語言
Python資料視覺化之Pygal圖表型別
2018-10-08
Python視覺化型別
資料視覺化圖表之折線圖
2022-06-15
視覺化
資料視覺化實踐
2018-10-25
視覺化
python資料視覺化——echarts
2018-10-16
Python視覺化Echarts
如何看待資料視覺化？
2019-03-06
視覺化
視覺化中的資料
2019-02-27
視覺化
python 資料視覺化利器
2019-02-28
Python視覺化
資料視覺化的秘密
2020-02-06
視覺化
【matplotlib教程】資料視覺化
2024-08-23
視覺化
資料視覺化的作用
2020-12-11
視覺化
什麼是資料視覺化？hightopo資料視覺化助力企業數字化
2021-12-08
視覺化
讓資料視覺化變得簡單 – JavaScript 圖形庫
2022-02-18
視覺化JavaScript

第二篇：R語言資料視覺化之資料塑形技術

前言

資料框塑型

因子水平塑型

變數塑型

長/寬資料塑型

小結

相關文章