[轉載]易上手的資料探勘、視覺化與機器學習工具:Orange介紹
標籤
PostgreSQL , Orange3 , 視覺化 , 時空資料
背景
視覺化分析會是一個讓枯燥的資料說話的快捷途徑,降低視覺化分析門檻,同時又保留它的程式設計能力,是非常重要的。
如今資料種類越來越多,除了常見的數值、文字,還有陣列、K-V、影像、空間資料、波、基因 等等。對視覺化分析軟體的要求也越來越高。
原文
http://blog.just4fun.site/Orange-startup.html
之前陸續寫過幾篇介紹資料探勘/視覺化專案Caravel的文章:
如今直接去github搜尋caravel已經搜不到它了。它最近換了新馬甲,改叫superset,至於為何頻繁改名(分別叫過Panoramix,Caravel,Superset),我猜核心作者早年混跡論壇,與人吵架,常換馬甲:)
對資料視覺化的興趣一直未減,近期發現兩個有趣的專案,其一就是這篇文章的主角:Orange,另一個是google釋出的Embedding Projector(基於Tensorflow)
Orange初體驗
現在,你可以直接在這裡下載到最新的Orange軟體,Orange釋出了各個平臺的安裝包,選擇你當前平臺的安裝包,雙擊安裝即可,安裝過程十分友好。
和許多資料分析的專案不同,其他專案多數面向資料分析從業人員、軟體開發者。而Orange讓各行各業對資料探勘和視覺化感興趣的人都能參與其中,而不必有程式設計基礎
安裝完畢開啟軟體,跟著以下教程即可對它做大致瞭解
簡介
官方首頁對這個專案的介紹是:
Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.
該專案原始碼開放,對新手友好,同時也勝任專業的資料分析工作。
Orange是一個基於元件的資料探勘軟體,它包含了一組資料視覺化、探索、預處理和建模的技術。
它不但帶有一個新手友好的使用者介面,老司機們也可以把它用作Python的一個模組。
標籤
如果要用一些簡單的詞描述它,我想到以下標籤:
- 開源
- python
- 資料視覺化
- 資料模式探索
- 機器學習
- 拖曳式
- 積木化
特點
- 互動式的資料視覺化探索:你可以用它做簡單的分析,諸如統計分佈、箱形圖(Box plot)、散點圖。也可以做深入挖掘,諸如使用決策樹、聚類、熱圖等。通過智慧的屬性選擇,你可以在2維平面上探索多維資料
- 視覺化程式設計:圖形化介面允許你專注於探索資料,而不是編碼。你要做的事只是在畫布上拖曳小部件、連線它們、載入資料集,如此便可獲得資料洞察力!
- 適合用於教學(jupyter出自生物學家之手,Orange似乎也和生物學領域有關,他們都讓資料分析工作的協作交流變得簡單有趣)
- 附加擴充套件功能:通過使用各種外掛,我們可以做各種各樣的事:
* 對外部資料來源進行資料探勘(資料庫/網路)
* 自然語言處理以及文字挖掘
* 網路分析
* 關聯規則分析
優勢
我折騰過的資料視覺化工具多而雜, 以下是我偏好Orange的幾個原因
- 安裝極其建議(二進位制安裝包)
- 對新手友好,易於上手,許多操作憑直覺即可甚至不需要文件
- 讓普通使用者能使用機器學習去發現資料模式,這項工作之前往往需要技術背景
- 支援excel檔案直接匯入
- 對中文支援良好(目前尚未遇到亂碼)
- 視覺化的程式設計方式,使用者無需編碼,資料在各個元件裡流動,通過拖曳元件即可開始探索資料
- 互動式的探索過程,每一個元件疊加都能及時得到反饋。如同REPL(讀取﹣求值﹣輸出迴圈)般敏捷順滑
不足
同時也簡單列出我認為不足的地方
- 對資料來源的支援不夠豐富,目前Orange3只支援PostgreSQL資料庫,當然這是站在開發者的角度的挑刺,普通使用者對此沒有需求
- 無法像tableau一樣把探索結果作為網頁釋出。不過瀏覽了一遍官方原始碼庫,他們似乎有這個計劃。把它和superset整合在一起,指不定能折騰出一個商業應用
關於對資料庫的支援,估計隨著專案的推進,會慢慢完備起來,這塊基本只是時間的問題。(PS:不過PostgreSQL, Greenplum實際上都非常強大,不僅僅能夠完美的展現時空資料,還支援平行計算。)
後續
接下來有空我們分析下,這個專案在技術層面有哪些有趣的東西
此外我還有興趣對它做些本地化改進,包括但不限於漢化,有興趣的小夥伴可以一起來折騰,我已經fork了一份原始碼:orange3
參考
補充
這裡有大量的例子:
相關文章
- .NET資料探勘與機器學習開源框架機器學習框架
- 【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP機器學習
- 《Python機器學習與視覺化分析實戰》簡介Python機器學習視覺化
- 一款 0 門檻輕鬆易上手的資料視覺化工具視覺化
- 14張Python程式碼速查表,玩轉資料分析&視覺化&機器學習Python視覺化機器學習
- 從零開始學機器學習——準備和視覺化資料機器學習視覺化
- 玩轉大資料視覺化,推薦幾個必學的工具!大資料視覺化
- (一) 機器學習和機器學習介紹機器學習
- 28個資料視覺化圖表的總結和介紹視覺化
- ShifuML/shifu: Hadoop上的機器學習和資料探勘框架Hadoop機器學習框架
- 最通俗的機器學習介紹機器學習
- [大資料][機器學習]之Model Card(模型卡片)介紹大資料機器學習模型
- Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 4 —— 資料探索與視覺化、發現規律機器學習筆記視覺化
- 張量tensor:機器學習的基本資料結構介紹 - Santiago機器學習資料結構Go
- 【乾貨】常見的5個python資料視覺化庫介紹!Python視覺化
- 幾款所見即所得視覺化UML工具介紹視覺化
- 機器學習-- 資料轉換機器學習
- 視覺化之資料視覺化最強工具推薦視覺化
- 機器學習演算法的開源視覺化工具: MLDemos機器學習演算法視覺化
- tensorboard 視覺化的最詳細介紹ORB視覺化
- Easysearch 資料視覺化和管理平臺:INFINI Console 使用介紹視覺化
- 從零開始學機器學習——聚類視覺化機器學習聚類視覺化
- 資料探勘,人工智慧,機器學習會議總結人工智慧機器學習
- 【計算機視覺】視訊格式介紹計算機視覺
- Python資料科學(八)- 資料探索與資料視覺化Python資料科學視覺化
- 資料視覺化Seaborn從零開始學習教程(三) 資料分佈視覺化篇視覺化
- 阿里雲機器學習 AutoML 引擎介紹與應用阿里機器學習TOML
- 機器學習基本函式介紹機器學習函式
- 《新冠大資料視覺化大屏》專案詳細介紹大資料視覺化
- 中國大學排名資料分析與視覺化視覺化
- 「AI白身境」深度學習中的資料視覺化AI深度學習視覺化
- 資料探勘比賽/專案全流程介紹
- Azure - 機器學習企業級服務概述與介紹機器學習
- 機器學習入門之sklearn介紹機器學習
- 簡單介紹python深度學習tensorflow例項資料下載與讀取Python深度學習
- 24個簡單、好看的視覺化圖表用法介紹!資料分析小白必看視覺化
- 計算機視覺與深度學習公司計算機視覺深度學習
- 資料視覺化初學者指南:定義、示例和工具視覺化
- 嵌入式視覺領域的機器學習視覺機器學習