使用開源軟體快速搭建資料分析平臺

發表於2016-06-14

最近,國內湧現出了不少資料分析平臺產品。這些產品的目標應該都是self service的BI,利用視覺化提供資料探索的功能,並且加入機器學習和預測的功能。它們對標的產品應該是Tableau或者SAP Lumira。因為筆者曾經為Lumira開發資料視覺化的功能,對這一塊很感興趣,於是就試用了一下這些產品,感覺這些產品似乎還有很大的差距,於是就想自己用開源軟體搭一個簡單的資料分析平臺試試看。

程式碼在這裡 https://github.com/gangtao/dataplay2

廢話少說,上架構圖:

使用開源軟體快速搭建資料分析平臺

列一下主要用到的開源軟體:

伺服器端:

客戶端:

開發構建工具

  • nodejs https://nodejs.org/en/這個應該也不用介紹
  • babel https://babeljs.io/javascript的編譯器,支援把ES6的程式碼轉換成瀏覽器可執行的程式碼,這裡主要是為了支援reactjs使用的jsx的編譯。

好了,羅列了這麼多的開源軟體後,我們看看dataplay2的功能,然後看看這些開源軟體起到的作用和我為什麼要選擇它們的原因。

在介入正題之前,我們先聊聊dataplay2這個名字,dataplay很容易理解,我希望建立一個簡單易用的資料平臺,使用起來像玩一樣的愉快。但為什麼是2呢?因為這個軟體很二麼?當然不是。其實我之前寫過一個dataplay的,當時的架構略有不同,為了使用R裡的ggplot來支援語法驅動的視覺化方案,我後臺使用了R/Python的橋接方案,前臺的視覺化操作會生成ggplot的命令,好處是可以有一個統一的資料模型和語法來驅動資料的視覺化分析,便於使用者進行資料的探索。然而這樣的架構太複雜了,伺服器端既有R又有Python,我自己都看不下去了,後來就放棄了。新的dataplay2使用echart的圖表庫來做視覺化,優缺點我們後面再聊。

好了,執行dataplay2非常簡單,下載github上的code後,建議安裝anaconda,所有的Python依賴就都準備好了,進入dataplay2/package目錄,執行:

這裡補充說明一下,因為react的jsf需要編譯,需要執行如下的命令用babel進行jsf的編譯才能執行,具體命令如下:

另外還需要使用bower安裝客戶端的所有依賴

大家也可以參考package/static/package.json瞭解需要的依賴。有時間需要整合一個更簡單的build指令碼來做這些事情。生成的JS檔案在lib目錄下。修改js目錄下的原始檔案,babel會觸發編譯,生成新的js檔案在lib目錄下。

然後在瀏覽器中鍵入 localhost:5000啟動客戶端。

使用開源軟體快速搭建資料分析平臺

首先我們進入資料選單

使用開源軟體快速搭建資料分析平臺

在這個頁面,使用者可以瀏覽已有的資料,或者上傳一個CSV檔案,增加一個資料集。

使用開源軟體快速搭建資料分析平臺

簡單介紹一下這一部分的實現。

資料上傳用到了file input控制元件,資料表用了datatable控制元件。為了方便CSV檔案直接存貯在本地檔案系統中。後臺用pandas對csv檔案進行處理。前臺用Rest API讀取csv檔案,然後用papaparse解析後,展現在資料表中。這樣做純粹是為了方便,因為整個POC是我在假期花了3/4天做的,所以怎麼方便怎麼來。更好的做法是在後臺用Python對CSV檔案作解析。

注意這裡我們對上傳的CSV檔案有嚴格的要求,必須有首行的header,末尾不能有空行。

有了資料後,就可以開始做分析了。首先我們看看視覺化的分析。點選選單Analysis/Visualization

使用開源軟體快速搭建資料分析平臺

例如我們選定Iris資料來源做一個Scatter Plot

使用開源軟體快速搭建資料分析平臺

視覺化這一塊的主要工作是從CSV的表結構資料,根據資料繫結,變形到echart的資料結構。因為echart並沒有一個統一的資料模型,所以每一個型別的圖表都需要有對應的資料變形的邏輯 。(程式碼 package/static/js/visualization )

現在主要的做了Pie,Bar,Line,Treemap,Scatter, Area這幾種chart。

現在用下來感覺echart優缺點都很明顯,他提供的輔助功能很好,可以方便的增加輔助線,note,存貯為圖形等。但是由於缺乏統一的資料模型擴充套件起來比較麻煩,我希望有時間試用一下plotly,當然highchart是非常成熟的圖表庫,無需證明。

其實我希望能找到一個ggplot的D3的實現,例如這個http://benjh33.github.io/ggd3/ ,可惜該專案似乎不活躍了。

除了基於視覺化的分析功能,還有機器學習的功能。

分類

分類的演算法可以使用KNN,Bayes和SVM。

使用開源軟體快速搭建資料分析平臺

如果選擇兩個Feature做預測,我用D3畫出了該預測的模型。大於兩個時,就沒有辦法畫出來了。

然後使用者可以選擇基於該模型來做預測。

使用開源軟體快速搭建資料分析平臺

聚類和迴歸的功能和分類基本一致。

聚類

聚類演算法現在實現了Kmeans

使用開源軟體快速搭建資料分析平臺

線性迴歸

使用開源軟體快速搭建資料分析平臺

邏輯迴歸

使用開源軟體快速搭建資料分析平臺

基本功能就這些了,這裡列出一些我想要實現的功能:

  • 資料來源現在的資料來源只有CSV檔案,可以考慮更多的資料來源支援,例如資料庫/資料倉儲,REST呼叫,流等等。
  • 資料模型現在的資料模型比較簡單,就是pandas的dataframe或者一個簡單的cvs的表結構。可以考慮引入資料庫。另外還需要增加對層級資料(hierachical)的支援
  • 資料變形資料變形是資料分析的必要準備工作。業內有很多專注於資料準備的產品,例如paxata,trifacta這個版本的dataplay沒有任何的資料變形和準備的功能,其實pandas有非常豐富的data wrangling的功能,我希望能在這之上包裝一個data wrangling的DSL,可以讓使用者快速的進行資料準備。
  • 視覺化庫Baidu的echart是非常優秀的視覺化庫,可是用於資料探索時,還不夠好。希望能有一套類似ggplot的前端視覺化庫來使用。另外地圖功能和層級化的圖表也是資料分析常見的功能。還需要加入圖表的選項
  • 儀表盤功能這個版本的dataplay沒有儀表盤功能,這個功能是資料分析軟體的標配,必須有。pyxley似乎是個不錯的選擇,也和dataplay的架構一致(python,reactjs),有時間可以嘗試一下
  • 機器學習和預測dataplay現在實現了最簡單的一些機器學習的演算法,我覺得方向應該是面向使用者,變得更簡單,使用者只給出簡單的選項,例如要預測的目標屬性,和用於預測的屬性,然後自動的選擇演算法。另外需要更方便的對演算法進行擴充套件。

好了,最後談談簡單的感受

  • reactjs真不錯,一直不喜歡MVC,reactjs的元件化用起來更舒服,而且開發效率確實高,整個專案我用假期3/4天完成,react功不可沒。
  • dataplay現在的功能還比較弱,但是基本的架構已經搭好了,大家喜歡的話可以拿去擴充套件。我不一定會有時間繼續對它的功能增強,但是歡迎大家和我一起討論。

相關文章