[轉載]易上手的資料探勘、視覺化與機器學習工具:Orange介紹
標籤
PostgreSQL , Orange3 , 視覺化 , 時空資料
背景
視覺化分析會是一個讓枯燥的資料說話的快捷途徑,降低視覺化分析門檻,同時又保留它的程式設計能力,是非常重要的。
如今資料種類越來越多,除了常見的數值、文字,還有陣列、K-V、影像、空間資料、波、基因 等等。對視覺化分析軟體的要求也越來越高。
原文
http://blog.just4fun.site/Orange-startup.html
之前陸續寫過幾篇介紹資料探勘/視覺化專案Caravel的文章:
如今直接去github搜尋caravel已經搜不到它了。它最近換了新馬甲,改叫superset,至於為何頻繁改名(分別叫過Panoramix,Caravel,Superset),我猜核心作者早年混跡論壇,與人吵架,常換馬甲:)
對資料視覺化的興趣一直未減,近期發現兩個有趣的專案,其一就是這篇文章的主角:Orange,另一個是google釋出的Embedding Projector(基於Tensorflow)
Orange初體驗
現在,你可以直接在這裡下載到最新的Orange軟體,Orange釋出了各個平臺的安裝包,選擇你當前平臺的安裝包,雙擊安裝即可,安裝過程十分友好。
和許多資料分析的專案不同,其他專案多數面向資料分析從業人員、軟體開發者。而Orange讓各行各業對資料探勘和視覺化感興趣的人都能參與其中,而不必有程式設計基礎
安裝完畢開啟軟體,跟著以下教程即可對它做大致瞭解
簡介
官方首頁對這個專案的介紹是:
Open source machine learning and data visualization for novice and expert. Interactive data analysis workflows with a large toolbox.
該專案原始碼開放,對新手友好,同時也勝任專業的資料分析工作。
Orange是一個基於元件的資料探勘軟體,它包含了一組資料視覺化、探索、預處理和建模的技術。
它不但帶有一個新手友好的使用者介面,老司機們也可以把它用作Python的一個模組。
標籤
如果要用一些簡單的詞描述它,我想到以下標籤:
- 開源
- python
- 資料視覺化
- 資料模式探索
- 機器學習
- 拖曳式
- 積木化
特點
- 互動式的資料視覺化探索:你可以用它做簡單的分析,諸如統計分佈、箱形圖(Box plot)、散點圖。也可以做深入挖掘,諸如使用決策樹、聚類、熱圖等。通過智慧的屬性選擇,你可以在2維平面上探索多維資料
- 視覺化程式設計:圖形化介面允許你專注於探索資料,而不是編碼。你要做的事只是在畫布上拖曳小部件、連線它們、載入資料集,如此便可獲得資料洞察力!
- 適合用於教學(jupyter出自生物學家之手,Orange似乎也和生物學領域有關,他們都讓資料分析工作的協作交流變得簡單有趣)
- 附加擴充套件功能:通過使用各種外掛,我們可以做各種各樣的事:
* 對外部資料來源進行資料探勘(資料庫/網路)
* 自然語言處理以及文字挖掘
* 網路分析
* 關聯規則分析
優勢
我折騰過的資料視覺化工具多而雜, 以下是我偏好Orange的幾個原因
- 安裝極其建議(二進位制安裝包)
- 對新手友好,易於上手,許多操作憑直覺即可甚至不需要文件
- 讓普通使用者能使用機器學習去發現資料模式,這項工作之前往往需要技術背景
- 支援excel檔案直接匯入
- 對中文支援良好(目前尚未遇到亂碼)
- 視覺化的程式設計方式,使用者無需編碼,資料在各個元件裡流動,通過拖曳元件即可開始探索資料
- 互動式的探索過程,每一個元件疊加都能及時得到反饋。如同REPL(讀取﹣求值﹣輸出迴圈)般敏捷順滑
不足
同時也簡單列出我認為不足的地方
- 對資料來源的支援不夠豐富,目前Orange3只支援PostgreSQL資料庫,當然這是站在開發者的角度的挑刺,普通使用者對此沒有需求
- 無法像tableau一樣把探索結果作為網頁釋出。不過瀏覽了一遍官方原始碼庫,他們似乎有這個計劃。把它和superset整合在一起,指不定能折騰出一個商業應用
關於對資料庫的支援,估計隨著專案的推進,會慢慢完備起來,這塊基本只是時間的問題。(PS:不過PostgreSQL, Greenplum實際上都非常強大,不僅僅能夠完美的展現時空資料,還支援平行計算。)
後續
接下來有空我們分析下,這個專案在技術層面有哪些有趣的東西
此外我還有興趣對它做些本地化改進,包括但不限於漢化,有興趣的小夥伴可以一起來折騰,我已經fork了一份原始碼:orange3
參考
補充
這裡有大量的例子:
相關文章
- 一款 0 門檻輕鬆易上手的資料視覺化工具視覺化
- 28個資料視覺化圖表的總結和介紹視覺化
- 痞子衡嵌入式:極易上手的視覺化wxPython GUI構建工具(wxFormBuilder)視覺化PythonGUIORM
- 2015年度10大Plotly資料視覺化美圖及工具介紹視覺化
- 視覺化之資料視覺化最強工具推薦視覺化
- 幾款所見即所得視覺化UML工具介紹視覺化
- 資料視覺化與資訊視覺化怎麼搞?視覺化
- Vega資料視覺化工具—教你輕鬆玩轉大資料視覺化 | 附程式碼視覺化大資料
- 【乾貨】常見的5個python資料視覺化庫介紹!Python視覺化
- 資料探勘者與資料探勘青年的對話(轉)
- .NET資料探勘與機器學習開源框架機器學習框架
- 《新冠大資料視覺化大屏》專案詳細介紹大資料視覺化
- tensorboard 視覺化的最詳細介紹ORB視覺化
- 資料探勘技術簡介(轉)
- 資料視覺化DIY的幾個最好的工具視覺化
- 機器學習、資料探勘、計算機視覺等領域經典書籍推薦機器學習計算機視覺
- 玩轉大資料視覺化,推薦幾個必學的工具!大資料視覺化
- 一文上手 Elasticsearch常用視覺化管理工具Elasticsearch視覺化
- 合理選擇資料探勘工具(轉)
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- 機器學習探索之路1:機器學習相關工具介紹與安裝機器學習
- MySQL資料匯入匯出方法與工具介紹一(轉)MySql
- 資料視覺化的常用工具都有哪些?視覺化
- 資料視覺化可以利用的工具有哪些?視覺化
- [轉]資料視覺化的七個祕密視覺化
- 24個簡單、好看的視覺化圖表用法介紹!資料分析小白必看視覺化
- 機器學習、資料探勘及其他機器學習
- 關聯資料的釋出與視覺化視覺化
- 遇見大資料視覺化 : 那些 WOW 的資料視覺化案例大資料視覺化
- 資料探勘比賽/專案全流程介紹
- 資料視覺化的秘密視覺化
- 視覺化中的資料視覺化
- 資料視覺化的作用視覺化
- 常用的資料視覺化工具視覺化
- Easysearch 資料視覺化和管理平臺:INFINI Console 使用介紹視覺化
- Google推出Cloud Datalab:資料探索與視覺化的互動式工具GoCloud視覺化
- 《Python機器學習與視覺化分析實戰》簡介Python機器學習視覺化
- 14張Python程式碼速查表,玩轉資料分析&視覺化&機器學習Python視覺化機器學習