深入對比資料科學工具箱:Python和R之爭

發表於2016-04-14

概述

在真實的資料科學世界裡,我們會有兩個極端,一個是業務,一個是工程。偏向業務的資料科學被稱為資料分析(Data Analysis),也就是A型資料科學。偏向工程的資料科學被稱為資料構建(Data Building),也就是B型資料科學。

從工具上來看,按由業務到工程的順序,這個兩條是:EXCEL >> R >> Python >> Scala

在實際工作中,對於小資料集的簡單分析來說,使用EXCEL絕對是最佳選擇。當我們需要更多複雜的統計分析和資料處理時,我們就需要轉移到 Python 和 R 上。在確定工程實施和大資料集操作時,我們就需要依賴 Scala 的靜態型別等工程方法構建完整的資料分析系統。

Scala 和 Excel 是兩個極端,對於大多數創業公司而言,我們沒有足夠多的人手來實現專業化的分工,更多情況下,我們會在 Python 和 R 上花費更多的時間同時完成資料分析(A型)和資料構建(B型)的工作。而許多人也對 Python 和 R 的交叉使用存在疑惑,所以本文將從實踐角度對 Python 和 R 中做了一個詳細的比較。

應用場景對比

應用Python的場景

  • 網路爬蟲/抓取:儘管 rvest 已經讓 R 的網路爬蟲/抓取變得容易,但 Python 的 beautifulsoup 和 Scrapy 更加成熟、功能更強大,結合django-scrapy我們可以很快的構建一個定製化的爬蟲管理系統。
  • 連線資料庫: R 提供了許多連線資料庫的選擇,但 Python 只用 sqlachemy 通過ORM的方式,一個包就解決了多種資料庫連線的問題,且在生產環境中廣泛使用。Python由於支援佔位符操作,在拼接SQL語句時也更加方便。
  • 內容管理系統:基於Django,Python可以快速通過ORM建立資料庫、後臺管理系統,而R
    中的 Shiny 的鑑權功能暫時還需要付費使用。
  • API構建:通過Tornado這個標準的網路處理庫,Python也可以快速實現輕量級的API,而R則較為複雜。

應用R的場景

  • 統計分析: 儘管 Python 裡 Scipy、Pandas、statsmodels 提供了一系列統計工具 ,R 本身是專門為統計分析應用建立的,所以擁有更多此類工具。
  • 互動式圖表/皮膚: 近來 bokeh、plotly、 intuitics 將 Python 的圖形功能擴充套件到了網頁瀏覽器,甚至我們可以用tornado+d3來進一步定製視覺化頁面,但 R 的 shiny 和 shiny dashboard 速度更快,所需程式碼更少。

此外,當今資料分析團隊擁有許多技能,選擇哪種語言實際上基於背景知識和經驗。對於一些應用,尤其是原型設計和開發類,工作人員使用已經熟悉的工具會比較快速。

資料流程式設計對比

接著,我們將通過下面幾個方面,對Python 和 R 的資料流程式設計做出一個詳細的對比。

  1. 引數傳遞
  2. 資料讀取
  3. 基本資料結構對照
  4. 矩陣轉化
  5. 矩陣計算
  6. 資料操作

引數傳遞

Python/R 都可以通過命令列的方式和其他語言做互動,通過命令列而不是直接呼叫某個類或方法可以更好地降低耦合性,在提高團隊協作的效率。

引數傳遞 Python R
命令列輸入 Python path/to/myscript.py arg1 arg2 arg3 Rscript path/to/myscript.R arg1 arg2 arg3
指令碼識別 import sys my_args = sys.argv myArgs

資料傳輸與解析

對於資料傳輸與解析,我們首推的格式是csv,因為一方面,csv格式的讀寫解析都可以通過 Python 和 R 的原生函式完成,不需要再安裝其他包。另一方面,csv格式可以很快的轉化為 data frame 格式,而data frame 格式是資料流分析的核心。

不過,實際情況中,我們需要傳輸一些非結構化的資料,這時候就必須用到 JSNO 或者 YAML。

資料傳輸與解析 Python R
CSV(原生) csv read.csv
CSV(優化) pandas.read_csv(“nba_2013.csv”) data.table::fread(“nba_2013.csv”)
JSON json(原生) jsonlite
YAML PyYAML yaml

基本資料結構

由於是從科學計算的角度出發,R 中的資料結構非常的簡單,主要包括 向量(一維)、多維陣列(二維時為矩陣)、列表(非結構化資料)、資料框(結構化資料)。而 Python 則包含更豐富的資料結構來實現資料更精準的訪問和記憶體控制,多維陣列(可讀寫、有序)、元組(只讀、有序)、集合(唯一、無序)、字典(Key-Value)等等。

基本資料結構 Python R
陣列 list:[1,’a’] :array:array(c(1,”a”),2)
Key-Value(非結構化資料) 字典:[“a”:1] lists
資料框(結構化資料) dataframe data.frame

矩陣操作

實際上,Python(numpy) 和 R中的矩陣都是通過一個多維陣列(ndarray)實現的。

矩陣轉化 Pyhton R
維度 data.shape dim(data)
轉為向量 data.flatten(1) as.vector(data)
轉為矩陣 np.array([[1,2,3],[3,2,1]]) matrix(c(1,2,3,3,2,1),nrow=2,byrow=T)
轉置 data.T t(data)
矩陣變形 data.reshape(1,np.prod(data.shape)) matrix(data,ncol=nrow(data)*ncol(data))
矩陣按行拼接 np.r_[A,B] rbind(A,B)
矩陣按列拼接 np.c_[A,B] cbind(A,B)
矩陣計算 Pyhton R
矩陣乘法 np.dot(A,B) A %*% B
矩陣冪指 np.power(A,3) A^3
全零矩陣 np.zeros((3,3)) matrix(0,nrow=3,ncol=3)
矩陣求逆 np.linalg.inv(A) solve(A)
協方差 np.cov(A,B) cov(A,B)
特徵值 np.linalg.eig(A)[0] eigen(A)$values
特徵向量 np.linalg.eig(A)[1] eigen(A)$vectors

資料框操作

參考 R 中的 data frame 結構,Python 的 Pandas包也實現了類似的 data frame 資料結構。現在,為了加強資料框的操作,R 中更是演進出了 data table 格式(簡稱dt),這種格式以 dt[where,select,group by] 的形式支援類似SQL的語法。

資料框操作 Python R
按Factor的Select操作 df[[‘a’, ‘c’]] dt[,.(a,c),]
按Index的Select操作 df.iloc[:,1:2] dt[,1:2,with=FALSE]
按Index的Filter操作 df[1:2] dt[1:2]
groupby分組操作 df.groupby([‘a’,’b’])[[‘c’,’d’]].mean() aggregate(x=dt[, c(“v1”, “v2”)], by=list(mydt2$by1, mydt2$by2), FUN = mean)
%in% 匹配操作 返回T/F pd.Series(np.arange(5),dtype=np.float32).isin([2, 4]) 0:4 %in% c(2,4)
match 匹配操作 返回Index pd.Series(pd.match(pd.Series(np.arange(5),dtype=np.float32),[2,4],np.nan)) match(0:4, c(2,4))
tapply df.pivot_table(values=’a’, columns=’c’, aggfunc=np.max) tapply(dt$a,dt$c,max)#其中dt$a是numeric,dt$c是nominal
查詢操作 df[df.a dt[ a
with操作 pd.DataFrame({‘a’: np.random.randn(10), ‘b’: np.random.randn(10)}).eval(‘a + b’) with(dt,a + b)
plyr操作 df.groupby([‘month’,’week’]).agg([np.mean, np.std]) ddply(dt, .(month, week), summarize,mean = round(mean(x), 2),sd = round(sd(x), 2))
多維陣列融合 pd.DataFrame([tuple(list(x)+[val]) for x, val in np.ndenumerate(np.array(list(range(1,24))+[np.NAN]).reshape(2,3,4))]) data.frame(melt(array(c(1:23, NA), c(2,3,4))))
多維列表融合 pd.DataFrame(list(enumerate(list(range(1,5))+[np.NAN]))) data.frame(melt(as.list(c(1:4, NA))))
資料框融合 pd.melt(pd.DataFrame({‘first’ : [‘John’, ‘Mary’],’last’ : [‘Doe’, ‘Bo’],’height’ : [5.5, 6.0],’weight’ : [130, 150]}), id_vars=[‘first’, ‘last’]) melt(data.frame(first = c(‘John’, ‘Mary’),last = c(‘Doe’, ‘Bo’),height = c(5.5, 6.0),weight = c(130, 150), id=c(“first”, “last”))
資料透視表 pivot table pd.pivot_table(pd.melt(pd.DataFrame({ ‘x’: np.random.uniform(1., 168., 12), ‘y’: np.random.uniform(7., 334., 12), ‘z’: np.random.uniform(1.7, 20.7, 12), ‘month’: [5,6,7]4, ‘week’: [1,2]6}), id_vars=[‘month’, ‘week’]), values=’value’, index=[‘variable’,’week’],columns=[‘month’], aggfunc=np.mean) acast(melt(data.frame(x = runif(12, 1, 168),y = runif(12, 7, 334),z = runif(12, 1.7, 20.7),month = rep(c(5,6,7),4),week = rep(c(1,2), 6)), id=c(“month”, “week”)), week ~ month ~ variable, mean)
連續型數值因子分類 pd.cut(pd.Series([1,2,3,4,5,6]), 3) cut(c(1,2,3,4,5,6), 3)
名義型因子分類 pd.Series([1,2,3,2,2,3]).astype(“category”) factor(c(1,2,3,2,2,3))

資料流程式設計對比的示例

Python 的 Pandas 中的管道操作

R 的 dplyr 中的管道操作

資料視覺化對比

繪製相關性散點圖

對比資料相關性是資料探索常用的一種方法,下面是Python和R的對比。

Python

R

雖然我們最終得到了類似的圖形,這裡R中GGally是依賴於ggplot2,而Python則是在matplotlib的基礎上結合Seaborn,除了GGally在R中我們還有很多其他的類似方法來實現對比製圖,顯然R中的繪圖有更完善的生態系統。

繪製聚類效果圖

這裡以K-means為例,為了方便聚類,我們將非數值型或者有確實資料的列排除在外。

Python

R

速度對比

Python

R

顯然這裡 R 1.326的成績 比 Python 的 Numpy 3:111 的速度快了不少。

事實上,現在 R 和 Python 的資料操作的速度已經被優化得旗鼓相當了。下面是R中的 data.table、dplyr 與 Python 中的 pandas 的資料操作效能對比:

結論

Python 的 pandas 從 R 中偷師 dataframes,R 中的 rvest 則借鑑了 Python 的 BeautifulSoup,我們可以看出兩種語言在一定程度上存在的互補性,通常,我們認為 Python 比 R 在泛型程式設計上更有優勢,而 R 在資料探索、統計分析是一種更高效的獨立資料分析工具。所以說,同時學會Python和R這兩把刷子才是資料科學的王道。

參考資料

相關文章