【譯文】利用dplyr包進行資料操作

錢亦欣發表於2016-04-15

【譯文】利用dplyr包進行資料操作

作者 Teja Kodali

譯者錢亦欣

dplyr是R中用來進行資料操作的一個包，由Hadley Wickham(男神！)編寫維護。它提供了一些功能強大，易於使用的函式，這些函式對於資料探索分析和資料操作而言非常實用。在本文中我將對這些常用函式做一個基本的概述。

我將使用包中自帶的空氣質量資料集做示例。這個資料集包含了紐約從1973年5月到1973年9月的空氣質量測量資料。

該資料集前幾行是這樣的：

head(airquality)

  Ozone Solar.R Wind Temp Month Day
1    41     190  7.4   67     5   1
2    36     118  8.0   72     5   2
3    12     149 12.6   74     5   3
4    18     313 11.5   62     5   4
5    NA      NA 14.3   56     5   5
6    28      NA 14.9   66     5   6

在介紹函式之前，先讓我們載入兩個包

library(datasets)
library(dplyr)

準備完畢，來看看函式吧！

Filter

filter()函式會返回滿足設定條件的觀測資料(行)，舉個例子，我們可以用如下方法返回Temp變數值大於70的觀測：

filter(airquality, Temp > 70)

  Ozone Solar.R Wind Temp Month Day
1    36     118  8.0   72     5   2
2    12     149 12.6   74     5   3
3     7      NA  6.9   74     5  11
4    11     320 16.6   73     5  22
5    45     252 14.9   81     5  29
6   115     223  5.7   79     5  30
...

也可以設定多個過濾條件。下方的例子會返回Temp大於80並且Month大於5的子集。

filter(airquality, Temp > 80 & Month > 5)

   Ozone Solar.R Wind Temp Month Day
1     NA     186  9.2   84     6   4
2     NA     220  8.6   85     6   5
3     29     127  9.7   82     6   7
4     NA     273  6.9   87     6   8
5     71     291 13.8   90     6   9
6     39     323 11.5   87     6  10
...

Mutate()

Mutate()函式可以給資料集新增新變數。比如，可以在表中新增新的一列，記錄用攝氏度表示的溫度資料。

mutate(airquality, TempInC = (Temp - 32) * 5 / 9)

  Ozone Solar.R Wind Temp Month Day  TempInC
1    41     190  7.4   67     5   1 19.44444
2    36     118  8.0   72     5   2 22.22222
3    12     149 12.6   74     5   3 23.33333
4    18     313 11.5   62     5   4 16.66667
5    NA      NA 14.3   56     5   5 13.33333
...

Summarise

summarise()是用來將多個變數總結成單個變數的函式。將它和dplyr包中的其他函式組合使用可謂威力無窮。如下所示，na.rm=TRUE設定會在計算均值時剔除所有NA的觀測，防止返回異常結果。

summarise(airquality, mean(Temp, na.rm = TRUE))

  mean(Temp)
1   77.88235

Group By

group_by()函式可以把資料集根據一個或多個變數進行分組。比如可以根據月份把資料分組，並用summarise()函式計算每個組的溫度均值。

summarise(group_by(airquality, Month), mean(Temp, na.rm = TRUE))

  Month mean(Temp)
1     5   65.54839
2     6   79.10000
3     7   83.90323
4     8   83.96774
5     9   76.90000

Sample

sample()函式可以從表格中隨機抽取一定數量的行（觀測）。下述第一行程式碼從資料集中隨機抽取了10行，第二行程式碼隨機抽取了15行（153個觀測的10%）。

sample_n(airquality, size = 10)
sample_frac(airquality, size = 0.1)

Count

count()函式會在資料分好組的基礎上進行計數。這個函式功能和base包的table()有些類似。例子如下：

count(airquality, Month)

  Month  n
1     5 31
2     6 30
3     7 31
4     8 31
5     9 30

輸出結果表示，5月份有31個觀測，6月有30個觀測，等等。

Arrange

arrange()函式可以按照變數值對觀測進行排序。當前情況下，空氣質量資料集是按照月份（Month）進行排序，每個月的資料在按照日期（Day）排序。我們可以用arrange函式將資料集按照月份降序排列，再逐月按照日期升序排列。

arrange(airquality, desc(Month), Day)

  Ozone Solar.R Wind Temp Month Day
1    96     167  6.9   91     9   1
2    78     197  5.1   92     9   2
3    73     183  2.8   93     9   3
4    91     189  4.6   93     9   4
5    47      95  7.4   87     9   5
6    32      92 15.5   84     9   6

Pipe(管道操作符)

R中的管道操作符為%>%，這個符號可以把一系列操作函式連結起來。（譯者注：管道操作符%>%會將不同指令連線起來。%>%符號會把左邊的輸出傳遞到右邊的函式，作為右側函式的第一個引數。）當你對一個資料集進行連續操作時利用管道操作符非常有用，它可以讓你不用逐步記錄每一次操作的輸出。

舉個例子，如果我們想要移除資料集中5月份的觀測，並將觀測按月份排序，再機選每個月的平均溫度。傳統的方法可能要把程式碼寫成這樣：

filteredData <- filter(airquality, Month != 5)
groupedData <- group_by(filteredData, Month)
summarise(groupedData, mean(Temp, na.rm = TRUE))

利用管道操作符，上述程式碼可以重寫為：

airquality %>% 
    filter(Month != 5) %>% 
    group_by(Month) %>% 
    summarise(mean(Temp, na.rm = TRUE))

這是一個非常基礎的例子，管道操作的便利性可能無法體現。但只要對於資料的運算元越來越多，管道操作的優勢將會逐步體現。

到這裡本文就要結束了。我希望你們能享受閱讀的過程，並且認為dplyr包真的實用。如果你有任何問題，請在下方自由留言或訪問我的推特。

注:原文刊載於datascience+網站

連結:http://datascienceplus.com/data-manipulation-with-dplyr/

利用PCA進行資料降維
2020-11-10
PCA
利用Kettle進行資料同步（下）
2019-01-19
利用Kettle進行資料同步（上）
2018-06-04
薦書 | 《利用Python進行資料分析》
2019-05-13
Python
利用Tushare資料介面+pandas進行股票資料分析
2022-06-05
利用SSIS進行SharePoint 列表資料的ETL
2020-04-20
《利用Python進行資料分析·第2版》轉
2019-02-19
Python
使用Spring Data JPA進行資料庫操作
2024-07-14
Spring資料庫
Python 連線mysql資料庫進行操作
2021-09-09
PythonMySql資料庫
如何利用第三方資料進行大資料分析
2021-12-09
大資料
火爆網路的《利用 Python 進行資料分析》，有人將它翻譯了中文版！
2019-11-05
Python
利用Data Vault對資料倉儲進行建模（二）
2020-08-01
利用python進行資料分析之準備工作（1）
2018-08-10
Python
[譯] 在 Python 中，如何運用 Dask 資料進行並行資料分析
2018-12-24
Python並行
利用GRC進行安全研究和審計 – 將無線電訊號轉換為資料包
2020-08-19
JQuery對ASP.NET MVC資料進行操作
2021-09-09
jQueryASP.NETMVC
[譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
2018-11-12
如何利用區塊鏈技術進行資料儲存?
2019-01-21
區塊鏈
Vue 中利用 eventBus 進行資料通訊的問題
2018-06-25
Vue
利用d3.js對大資料資料進行視覺化分析
2020-08-19
JS大資料視覺化
[Rpackage]R語言plyr包使用方法——可進行類似資料透視表的操作
2018-08-13
PackageR語言
[譯] 使用 NumPy 和 Pandas 進行 Python 式資料清理
2018-04-17
Python
Spring Boot整合Spring Data JPA進行資料庫操作
2024-08-14
Spring Boot資料庫
利用wordpress的資料庫操作函式
2018-08-30
資料庫函式
大資料包表如何進行自動化測試
2020-09-08
大資料
高階NumPy知識圖譜-《利用Python進行資料分析》
2020-07-29
Python
時間序列知識圖譜-《利用Python進行資料分析》
2020-07-19
Python
如何利用散點圖矩陣進行資料視覺化
2018-05-06
矩陣視覺化
如何使用帝國CMS進行資料庫匯出操作?
2024-09-21
資料庫
【大資料 Spark】利用電影觀看記錄資料,進行電影推薦
2020-05-10
大資料Spark
利用classfinal-maven-plugin對jar進行加密，防止反編譯
2024-10-31
MavenPluginJAR加密編譯
[譯] 利用 Keras 深度學習庫進行詞性標註教程
2018-04-28
Keras深度學習詞性標註
機器學習二——利用numpy庫對矩陣進行操作
2020-09-30
機器學習矩陣
[Tools] 使用 Charles 對 Android 應用進行 HTTPS 資料抓包
2024-06-05
AndroidHTTP
利用vstruct解析二進位制資料
2020-08-19
Struct
理解資料庫掃描方法-利用掃描方法對資料儲存進行優化
2018-09-15
資料庫優化
使用nodejs對Marketing Cloud的contact主資料進行修改操作
2019-05-25
NodeJSCloud
利用transformer進行中文文字分類（資料集是復旦中文語料）
2020-10-29
ORM文字分類
利用TfidfVectorizer進行中文文字分類（資料集是復旦中文語料）
2020-10-08
文字分類

【譯文】利用dplyr包進行資料操作

【譯文】利用dplyr包進行資料操作

作者 Teja Kodali

譯者 錢亦欣

dplyr是R中用來進行資料操作的一個包，由Hadley Wickham(男神！)編寫維護。它提供了一些功能強大，易於使用的函式，這些函式對於資料探索分析和資料操作而言非常實用。在本文中我將對這些常用函式做一個基本的概述。

我將使用包中自帶的空氣質量資料集做示例。這個資料集包含了紐約從1973年5月到1973年9月的空氣質量測量資料。

該資料集前幾行是這樣的：

在介紹函式之前，先讓我們載入兩個包

準備完畢，來看看函式吧！

Filter

filter()函式會返回滿足設定條件的觀測資料(行)，舉個例子，我們可以用如下方法返回Temp變數值大於70的觀測：

也可以設定多個過濾條件。下方的例子會返回Temp大於80並且Month大於5的子集。

Mutate()

Mutate()函式可以給資料集新增新變數。比如，可以在表中新增新的一列，記錄用攝氏度表示的溫度資料。

Summarise

summarise()是用來將多個變數總結成單個變數的函式。將它和dplyr包中的其他函式組合使用可謂威力無窮。如下所示，na.rm=TRUE設定會在計算均值時剔除所有NA的觀測，防止返回異常結果。

Group By

group_by()函式可以把資料集根據一個或多個變數進行分組。比如可以根據月份把資料分組，並用summarise()函式計算每個組的溫度均值。

Sample

sample()函式可以從表格中隨機抽取一定數量的行（觀測）。下述第一行程式碼從資料集中隨機抽取了10行，第二行程式碼隨機抽取了15行（153個觀測的10%）。

Count

count()函式會在資料分好組的基礎上進行計數。這個函式功能和base包的table()有些類似。例子如下：

輸出結果表示，5月份有31個觀測，6月有30個觀測，等等。

Arrange

arrange()函式可以按照變數值對觀測進行排序。當前情況下，空氣質量資料集是按照月份（Month）進行排序，每個月的資料在按照日期（Day）排序。我們可以用arrange函式將資料集按照月份降序排列，再逐月按照日期升序排列。

Pipe(管道操作符)

舉個例子，如果我們想要移除資料集中5月份的觀測，並將觀測按月份排序，再機選每個月的平均溫度。傳統的方法可能要把程式碼寫成這樣：

利用管道操作符，上述程式碼可以重寫為：

這是一個非常基礎的例子，管道操作的便利性可能無法體現。但只要對於資料的運算元越來越多，管道操作的優勢將會逐步體現。

到這裡本文就要結束了。我希望你們能享受閱讀的過程，並且認為dplyr包真的實用。如果你有任何問題，請在下方自由留言或訪問我的推特。

注:原文刊載於datascience+網站

連結:http://datascienceplus.com/data-manipulation-with-dplyr/

相關文章

譯者錢亦欣