使用開源軟體快速搭建資料分析平臺

發表於2016-06-14

最近，國內湧現出了不少資料分析平臺產品。這些產品的目標應該都是self service的BI，利用視覺化提供資料探索的功能，並且加入機器學習和預測的功能。它們對標的產品應該是Tableau或者SAP Lumira。因為筆者曾經為Lumira開發資料視覺化的功能，對這一塊很感興趣，於是就試用了一下這些產品，感覺這些產品似乎還有很大的差距，於是就想自己用開源軟體搭一個簡單的資料分析平臺試試看。

程式碼在這裡 https://github.com/gangtao/dataplay2

廢話少說，上架構圖：

使用開源軟體快速搭建資料分析平臺

列一下主要用到的開源軟體：

伺服器端：

flask http://flask.pocoo.org/輕量級的Python Web框架
pandas http://pandas.pydata.org/Python的資料結構和資料分析工具包，提供資料處理的Wrangling的功能
sklearn http://scikit-learn.org/非常流行的Python機器學習包，依賴於numpy，scipy和matplotlib

客戶端:

jquery這個就不用介紹了
reactjs http://facebook.github.io/react/facebook開發的js UI框架，基於元件（component）而非mvc
d3js https://d3js.org/資料驅動的DOM操縱庫，可以建立豐富的資料視覺化呈現。
echarts http://www.oschina.net/p/echarts百度開發的資料視覺化庫，基於canvas技術，功能豐富。實為中國開源專案的翹楚。
bootstrap http://getbootstrap.com/twitter開發的前端框架，非常流行。
jquery datatables http://www.datatables.net/非常實用的基於jquery的表格控制元件
bootstrap fielinput https://github.com/kartik-v/bootstrap-fileinputHTML5檔案上傳控制元件
papaparse https://github.com/mholt/PapaParseCSV檔案的JS解析
requirejs http://www.requirejs.org/JS 依賴管理
select2 https://select2.github.io/基於jquery的select控制元件

開發構建工具

nodejs https://nodejs.org/en/這個應該也不用介紹
babel https://babeljs.io/javascript的編譯器，支援把ES6的程式碼轉換成瀏覽器可執行的程式碼，這裡主要是為了支援reactjs使用的jsx的編譯。

好了，羅列了這麼多的開源軟體後，我們看看dataplay2的功能，然後看看這些開源軟體起到的作用和我為什麼要選擇它們的原因。

在介入正題之前，我們先聊聊dataplay2這個名字，dataplay很容易理解，我希望建立一個簡單易用的資料平臺，使用起來像玩一樣的愉快。但為什麼是2呢？因為這個軟體很二麼？當然不是。其實我之前寫過一個dataplay的，當時的架構略有不同，為了使用R裡的ggplot來支援語法驅動的視覺化方案，我後臺使用了R/Python的橋接方案，前臺的視覺化操作會生成ggplot的命令，好處是可以有一個統一的資料模型和語法來驅動資料的視覺化分析，便於使用者進行資料的探索。然而這樣的架構太複雜了，伺服器端既有R又有Python，我自己都看不下去了，後來就放棄了。新的dataplay2使用echart的圖表庫來做視覺化，優缺點我們後面再聊。

好了，執行dataplay2非常簡單，下載github上的code後，建議安裝anaconda，所有的Python依賴就都準備好了，進入dataplay2/package目錄，執行：

python main.py

1	python main.py

這裡補充說明一下，因為react的jsf需要編譯，需要執行如下的命令用babel進行jsf的編譯才能執行，具體命令如下：

## install node first
## cd package/static
npm install -g babel-cli
npm install babel-preset-es2015 --save
npm install babel-preset-react --save
babel --presets es2015,react --watch js/ --out-dir lib/

## install node first

## cd package/static

npm install -g babel-cli

npm install babel-preset-es2015 --save

npm install babel-preset-react --save

babel --presets es2015,react --watch js/ --out-dir lib/

另外還需要使用bower安裝客戶端的所有依賴

## install bower first
## cd package/static
bower install

## install bower first

## cd package/static

bower install

大家也可以參考package/static/package.json瞭解需要的依賴。有時間需要整合一個更簡單的build指令碼來做這些事情。生成的JS檔案在lib目錄下。修改js目錄下的原始檔案，babel會觸發編譯，生成新的js檔案在lib目錄下。

然後在瀏覽器中鍵入 localhost:5000啟動客戶端。

使用開源軟體快速搭建資料分析平臺

首先我們進入資料選單

使用開源軟體快速搭建資料分析平臺

在這個頁面，使用者可以瀏覽已有的資料，或者上傳一個CSV檔案，增加一個資料集。

使用開源軟體快速搭建資料分析平臺

簡單介紹一下這一部分的實現。

資料上傳用到了file input控制元件，資料表用了datatable控制元件。為了方便CSV檔案直接存貯在本地檔案系統中。後臺用pandas對csv檔案進行處理。前臺用Rest API讀取csv檔案，然後用papaparse解析後，展現在資料表中。這樣做純粹是為了方便，因為整個POC是我在假期花了3/4天做的，所以怎麼方便怎麼來。更好的做法是在後臺用Python對CSV檔案作解析。

注意這裡我們對上傳的CSV檔案有嚴格的要求，必須有首行的header，末尾不能有空行。

有了資料後，就可以開始做分析了。首先我們看看視覺化的分析。點選選單Analysis／Visualization

使用開源軟體快速搭建資料分析平臺

例如我們選定Iris資料來源做一個Scatter Plot

使用開源軟體快速搭建資料分析平臺

視覺化這一塊的主要工作是從CSV的表結構資料，根據資料繫結，變形到echart的資料結構。因為echart並沒有一個統一的資料模型，所以每一個型別的圖表都需要有對應的資料變形的邏輯。（程式碼 package/static/js/visualization ）

現在主要的做了Pie，Bar，Line，Treemap，Scatter， Area這幾種chart。

現在用下來感覺echart優缺點都很明顯，他提供的輔助功能很好，可以方便的增加輔助線，note，存貯為圖形等。但是由於缺乏統一的資料模型擴充套件起來比較麻煩，我希望有時間試用一下plotly，當然highchart是非常成熟的圖表庫，無需證明。

其實我希望能找到一個ggplot的D3的實現，例如這個http://benjh33.github.io/ggd3/ ，可惜該專案似乎不活躍了。

除了基於視覺化的分析功能，還有機器學習的功能。

分類

分類的演算法可以使用KNN，Bayes和SVM。

使用開源軟體快速搭建資料分析平臺

如果選擇兩個Feature做預測，我用D3畫出了該預測的模型。大於兩個時，就沒有辦法畫出來了。

然後使用者可以選擇基於該模型來做預測。

使用開源軟體快速搭建資料分析平臺

聚類和迴歸的功能和分類基本一致。

聚類

聚類演算法現在實現了Kmeans

使用開源軟體快速搭建資料分析平臺

線性迴歸

使用開源軟體快速搭建資料分析平臺

邏輯迴歸

使用開源軟體快速搭建資料分析平臺

基本功能就這些了，這裡列出一些我想要實現的功能：

資料來源現在的資料來源只有CSV檔案，可以考慮更多的資料來源支援，例如資料庫／資料倉儲，REST呼叫，流等等。
資料模型現在的資料模型比較簡單，就是pandas的dataframe或者一個簡單的cvs的表結構。可以考慮引入資料庫。另外還需要增加對層級資料（hierachical）的支援
資料變形資料變形是資料分析的必要準備工作。業內有很多專注於資料準備的產品，例如paxata,trifacta這個版本的dataplay沒有任何的資料變形和準備的功能，其實pandas有非常豐富的data wrangling的功能，我希望能在這之上包裝一個data wrangling的DSL，可以讓使用者快速的進行資料準備。
視覺化庫Baidu的echart是非常優秀的視覺化庫，可是用於資料探索時，還不夠好。希望能有一套類似ggplot的前端視覺化庫來使用。另外地圖功能和層級化的圖表也是資料分析常見的功能。還需要加入圖表的選項
儀表盤功能這個版本的dataplay沒有儀表盤功能，這個功能是資料分析軟體的標配，必須有。pyxley似乎是個不錯的選擇，也和dataplay的架構一致（python，reactjs），有時間可以嘗試一下
機器學習和預測dataplay現在實現了最簡單的一些機器學習的演算法，我覺得方向應該是面向使用者，變得更簡單，使用者只給出簡單的選項，例如要預測的目標屬性，和用於預測的屬性，然後自動的選擇演算法。另外需要更方便的對演算法進行擴充套件。

好了，最後談談簡單的感受

reactjs真不錯，一直不喜歡MVC，reactjs的元件化用起來更舒服，而且開發效率確實高，整個專案我用假期3/4天完成，react功不可沒。
dataplay現在的功能還比較弱，但是基本的架構已經搭好了，大家喜歡的話可以拿去擴充套件。我不一定會有時間繼續對它的功能增強，但是歡迎大家和我一起討論。

資料分析平臺搭建指南
2024-07-26
智慧警務大資料平臺開發，資料視覺化分析平臺搭建
2021-01-06
大資料視覺化
快速運營搭建直播軟體平臺直播原始碼！
2018-03-19
原始碼
C#Winform快速開發平臺與軟體配置平臺
2019-01-05
C#ORM
軟體快速開發平臺的優勢
2019-11-29
Tracardi：開源客戶資料整合與分析平臺
2022-03-16
如何搭建遊戲資料分析平臺
2020-03-09
遊戲
大資料軟體工具租賃 BI大資料分析平臺定製開發
2019-01-15
大資料
Cuckoo惡意軟體自動化分析平臺搭建
2020-08-19
資料視覺化分析平臺開源方案集錦
2019-01-14
視覺化
大資料分析平臺搭建方式有哪些
2021-12-07
大資料
AiDex Sharp快速開發平臺開源
2021-12-15
AIIDE
大資料分析平臺的搭建方式有哪些
2021-11-09
大資料
選擇軟體開發平臺，“快速開發”是關鍵
2019-09-06
搭建 nGrinder 效能測試平臺並快速使用
2019-08-27
純前端開發案例：用 SpreadJS 搭建資訊系統軟體開發平臺
2018-05-11
前端JS
IssueHunt：一個新的開源軟體打賞平臺
2018-11-28
一圖讀懂軟體快速開發平臺的優勢
2019-09-24
大資料平臺CDH搭建
2019-02-11
大資料
力軟快速開發平臺：方便快捷的Web開發平臺
2020-03-19
Web
智慧警務-情報研判系統開發-搭建大資料分析平臺
2020-12-29
大資料
CDP客戶資料管理平臺體系化搭建
2021-11-02
分析平臺Tableau推出資料和分析平臺新功能
2021-09-05
開源 Amundsen：資料發現和後設資料平臺
2022-10-24
開源軟體映象站的使用：騰訊軟體源、阿里軟體源、浙大軟體源
2024-08-29
阿里
搭建一個強大的資料平臺，讓你的資料分析事半功倍！
2021-12-23
使用滴滴雲快速搭建 Open-Falcon 監控平臺
2018-12-06
Hi3511平臺開發環境搭建資料
2019-03-19
開發環境
智慧公安情報研判大資料系統分析平臺搭建
2020-12-30
大資料
怎樣搭建大資料平臺
2022-03-29
大資料
為什麼那麼多公司在用快速開發平臺開發軟體？
2019-07-05
tiktok商品資料分析平臺
2021-09-24
CDS — 資料管理分析平臺
2021-03-10
搭建軟體執行平臺以及IDE環境
2018-12-13
IDE
大資料治理——搭建大資料探索平臺
2021-04-09
大資料
在海之舟大資料平臺上搭建mysql+php開發平臺
2019-10-10
大資料MySqlPHP
快速部署微軟開源的 Garnet 鍵值資料庫
2024-04-25
微軟資料庫
企業資訊平臺的快速搭建，框架如何選？
2019-12-05
框架
與眾不同的快速開發平臺 —— 簡潔高效的wueasy軟體
2019-01-19

使用開源軟體快速搭建資料分析平臺

相關文章