Google釋出機器學習開源視覺化工具Facets
文 / Google Big Picture 團隊高階軟體工程師 James Wexler
要通過機器學習 (ML) 模型取得最佳結果,您需要真正理解您的資料。然而,機器學習資料集可能包含數以億計的資料點,每個資料點又都包含數百個(甚或數千個)特性,因此,直觀地理解整個資料集幾乎是不可能的。視覺化工具有助於發現大型資料集的微妙之處並從中發現真知灼見。一張圖片傳達的資訊勝過千言萬語,而一個直觀的視覺化工具則更勝一籌。
在執行 PAIR 計劃的過程中,我們釋出了 Facets,一個用於幫助理解和分析機器學習資料集的開放原始碼視覺化工具。
可使用 Facets Overview 瞭解資料的每個具體特性,或使用 Facets Dive 探究個別觀察的資料集。這些視覺化選擇允許您除錯您的資料,這在機器學習中與除錯您的模型一樣重要。您可在 Jupyter notebooks 內部輕鬆使用它們,也可將其嵌入網頁。除開放原始碼外,我們還建立了一個 Facets 演示網站:
https://pair-code.github.io/facets
此網站允許任何人直接在瀏覽器中視覺化他們自己的資料集,而不必安裝或設定任何軟體,甚至不需要資料離開您的計算機。
Facets Overview
Facets Overview 自動幫助使用者快速理解其資料集特性的值分佈。可在同一個視覺化檢視中比較多個資料集(如訓練集和測試集)。妨礙機器學習的常見資料問題被推到前端,例如,異常的特性值、缺失值比例很高的特性、分佈不均的特性,以及資料集之間偏態分佈的特性。
▲ Facets Overview 以視覺化方式顯示 UCI 人口普查資料集的六個數字特性。這些特性按照不均勻性排序,分佈最不均勻的特性位於頂部。紅色的數字表示可能的故障點,在這種情況下,將帶有高比例值的數字特性設為 0。右側的柱狀圖允許您比較訓練資料(藍色)和測試資料(橙色)之間的分佈。
▲ Facets Overview 以視覺化方式顯示 UCI 人口普查資料集九個分類特性中的兩個特性。這些特性按分佈間距排序,訓練資料集(藍色)和測試資料集(橙色)之間偏態最顯著的特性位於頂部。請注意,在“Target”特性中,由於測試資料集中的值末尾帶有句點(“<=50K”與“<=50K.”),訓練資料集與測試資料集的標籤值存在差異。這個差異可在特性圖表中以及表格的“首列”條目中看到。這種標籤不匹配性將導致針對該資料進行訓練和測試的模型無法得到正確評估。
Facets Dive
Facets Dive 提供了一個易於自定義的直觀介面,用於探索資料集中不同特性資料點之間的關係。藉助 Facets Dive,您可以根據每個資料點的特性值來控制資料點的位置、顏色和視覺表徵。如果資料點具有與其關聯的影象,則可使用影象作為視覺表徵。
▲ Facets Dive 對“Quick, Draw!”資料集中大量面部繪圖進行的視覺化處理,結果顯示了繪圖中筆畫數與點數之間的關係,同時可使“Quick, Draw!”分類器將這些繪圖正確歸類為面部。
有趣的事實: 在大型資料集中(如 CIFAR-10 資料集),一個小小的人為標記錯誤很容易被忽視。我們通過 Dive 檢查了 CIFAR-10 資料集,結果發現了一隻青蛙貓——一張青蛙圖片被錯誤標記為貓!
▲ 您能找出那隻青蛙貓嗎?
在 Google 內部,我們已藉助 Facets 實現巨大價值,現在,我們期望與全世界分享這些視覺化工具。我們希望這些工具能幫助您發現您的資料中的新鮮有趣的事實,進而激發您建立出更強大、更準確的機器學習模型。由於這些工具已開放原始碼,因此,您可以根據您的具體需求自定義視覺化內容,或為該專案做貢獻,以幫助我們更好地理解我們的資料。
致謝
這項工作由 Mahima Pushkarna、James Wexler 和 Jimbo Wilson 在整個 Big Picture 團隊的支援下共同開展。同時我們要感謝 Justine Tunney,感謝他為我們提供構建工具。
檢視全文及文中連結,請點選文末“閱讀原文”。
推薦閱讀:
相關文章
- 機器學習演算法的開源視覺化工具: MLDemos機器學習演算法視覺化
- 利用開源視覺化報表工具進入流程化辦公!視覺化
- 從零開始學機器學習——聚類視覺化機器學習聚類視覺化
- 前端實時視覺化開發工具前端視覺化
- 關聯資料的釋出與視覺化視覺化
- 開源線上視覺化流程編輯器視覺化
- 八款卓越開源工具幫你搞定資料視覺化難題開源工具視覺化
- Google釋出機器學習術語表 (中英對照)Go機器學習
- 23 款開源的聲音、視覺生產工具視覺
- 開源視覺大模型視覺大模型
- 視覺化之資料視覺化最強工具推薦視覺化
- 視覺化bi工具有哪些視覺化
- Zeu.js 1.3.1 釋出, 分散式系統視覺化JS分散式視覺化
- 從零開始學機器學習——準備和視覺化資料機器學習視覺化
- 開源的資料視覺化平臺 Kibana 日誌視覺化 mac 安裝筆記視覺化Mac筆記
- 開源電子書工具Calibre 6.3 釋出
- 最流行的開源工具 Amanda 2.5 釋出(轉)開源工具
- Apache Superset是一款視覺化探索大資料的開源新工具 - thenewstackApache視覺化大資料
- apple/GCGC:蘋果開源其視覺化 Java 垃圾收集器日誌的工具APPGC蘋果視覺化Java
- Google推出Cloud Datalab:資料探索與視覺化的互動式工具GoCloud視覺化
- [轉載]易上手的資料探勘、視覺化與機器學習工具:Orange介紹視覺化機器學習
- 網頁版的 Redis 視覺化工具來了,已開源!網頁Redis視覺化
- Golang 資料視覺化利器 go-echarts 開源啦Golang視覺化Echarts
- 【Urule原始碼解析1】開源視覺化規則引擎原始碼視覺化
- 瞭解開源視覺化表單的主要優勢視覺化
- JDK視覺化故障處理工具JDK視覺化
- MySQL 視覺化管理工具MySql視覺化
- 收藏 | Google 釋出關於機器學習工程的最佳實踐Go機器學習
- Facebook釋出PyTorch 1.1,開源AI模型優化簡化工具BoTorch & AxPyTorchAI模型優化
- Google 開源主管解釋為什麼開源“殘酷”Go
- 一個高顏值 React Native 視覺化開發工具React Native視覺化
- 免費的swing/swt視覺化開發工具windowbuilder視覺化UI
- 開源介面管理工具 YApi 1.5.1 版本釋出API
- 資料視覺化學習資源視覺化
- AMD and CMD are dead之KMD.js依賴視覺化工具釋出JS視覺化
- plsql視覺化資料夾解釋SQL視覺化
- Superset 0.37 釋出——顏值最高的資料視覺化平臺視覺化
- 4款開源免費的資料視覺化JavaScript庫視覺化JavaScript