[轉載]易上手的資料探勘、視覺化與機器學習工具:Orange介紹

德哥發表於2018-01-02

標籤

PostgreSQL , Orange3 , 視覺化 , 時空資料


背景

視覺化分析會是一個讓枯燥的資料說話的快捷途徑,降低視覺化分析門檻,同時又保留它的程式設計能力,是非常重要的。

如今資料種類越來越多,除了常見的數值、文字,還有陣列、K-V、影像、空間資料、波、基因 等等。對視覺化分析軟體的要求也越來越高。

原文

http://blog.just4fun.site/Orange-startup.html

pic

之前陸續寫過幾篇介紹資料探勘/視覺化專案Caravel的文章:

如今直接去github搜尋caravel已經搜不到它了。它最近換了新馬甲,改叫superset,至於為何頻繁改名(分別叫過Panoramix,Caravel,Superset),我猜核心作者早年混跡論壇,與人吵架,常換馬甲:)

對資料視覺化的興趣一直未減,近期發現兩個有趣的專案,其一就是這篇文章的主角:Orange,另一個是google釋出的Embedding Projector(基於Tensorflow)

Orange初體驗

現在,你可以直接在這裡下載到最新的Orange軟體,Orange釋出了各個平臺的安裝包,選擇你當前平臺的安裝包,雙擊安裝即可,安裝過程十分友好。

pic

和許多資料分析的專案不同,其他專案多數面向資料分析從業人員、軟體開發者。而Orange讓各行各業對資料探勘和視覺化感興趣的人都能參與其中,而不必有程式設計基礎

安裝完畢開啟軟體,跟著以下教程即可對它做大致瞭解

pic

簡介

官方首頁對這個專案的介紹是:

Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.

該專案原始碼開放,對新手友好,同時也勝任專業的資料分析工作。

Orange是一個基於元件的資料探勘軟體,它包含了一組資料視覺化、探索、預處理和建模的技術。

它不但帶有一個新手友好的使用者介面,老司機們也可以把它用作Python的一個模組。

標籤

如果要用一些簡單的詞描述它,我想到以下標籤:

  • 開源
  • python
  • 資料視覺化
  • 資料模式探索
  • 機器學習
  • 拖曳式
  • 積木化

特點

  • 互動式的資料視覺化探索:你可以用它做簡單的分析,諸如統計分佈、箱形圖(Box plot)、散點圖。也可以做深入挖掘,諸如使用決策樹、聚類、熱圖等。通過智慧的屬性選擇,你可以在2維平面上探索多維資料
  • 視覺化程式設計:圖形化介面允許你專注於探索資料,而不是編碼。你要做的事只是在畫布上拖曳小部件、連線它們、載入資料集,如此便可獲得資料洞察力!
  • 適合用於教學(jupyter出自生物學家之手,Orange似乎也和生物學領域有關,他們都讓資料分析工作的協作交流變得簡單有趣)
  • 附加擴充套件功能:通過使用各種外掛,我們可以做各種各樣的事:
 *  對外部資料來源進行資料探勘(資料庫/網路)  
 *  自然語言處理以及文字挖掘  
 *  網路分析  
 *  關聯規則分析  

pic

優勢

我折騰過的資料視覺化工具多而雜, 以下是我偏好Orange的幾個原因

  • 安裝極其建議(二進位制安裝包)
  • 對新手友好,易於上手,許多操作憑直覺即可甚至不需要文件
  • 讓普通使用者能使用機器學習去發現資料模式,這項工作之前往往需要技術背景
  • 支援excel檔案直接匯入
  • 對中文支援良好(目前尚未遇到亂碼)
  • 視覺化的程式設計方式,使用者無需編碼,資料在各個元件裡流動,通過拖曳元件即可開始探索資料
  • 互動式的探索過程,每一個元件疊加都能及時得到反饋。如同REPL(讀取﹣求值﹣輸出迴圈)般敏捷順滑

不足

同時也簡單列出我認為不足的地方

  • 對資料來源的支援不夠豐富,目前Orange3只支援PostgreSQL資料庫,當然這是站在開發者的角度的挑刺,普通使用者對此沒有需求
  • 無法像tableau一樣把探索結果作為網頁釋出。不過瀏覽了一遍官方原始碼庫,他們似乎有這個計劃。把它和superset整合在一起,指不定能折騰出一個商業應用

關於對資料庫的支援,估計隨著專案的推進,會慢慢完備起來,這塊基本只是時間的問題。(PS:不過PostgreSQL, Greenplum實際上都非常強大,不僅僅能夠完美的展現時空資料,還支援平行計算。)

後續

接下來有空我們分析下,這個專案在技術層面有哪些有趣的東西

此外我還有興趣對它做些本地化改進,包括但不限於漢化,有興趣的小夥伴可以一起來折騰,我已經fork了一份原始碼:orange3

參考

補充

這裡有大量的例子:

http://blog.biolab.si/

pic

pic

pic

pic

pic

pic

pic


相關文章