Google釋出機器學習開源視覺化工具Facets
文 / Google Big Picture 團隊高階軟體工程師 James Wexler
要通過機器學習 (ML) 模型取得最佳結果,您需要真正理解您的資料。然而,機器學習資料集可能包含數以億計的資料點,每個資料點又都包含數百個(甚或數千個)特性,因此,直觀地理解整個資料集幾乎是不可能的。視覺化工具有助於發現大型資料集的微妙之處並從中發現真知灼見。一張圖片傳達的資訊勝過千言萬語,而一個直觀的視覺化工具則更勝一籌。
在執行 PAIR 計劃的過程中,我們釋出了 Facets,一個用於幫助理解和分析機器學習資料集的開放原始碼視覺化工具。
可使用 Facets Overview 瞭解資料的每個具體特性,或使用 Facets Dive 探究個別觀察的資料集。這些視覺化選擇允許您除錯您的資料,這在機器學習中與除錯您的模型一樣重要。您可在 Jupyter notebooks 內部輕鬆使用它們,也可將其嵌入網頁。除開放原始碼外,我們還建立了一個 Facets 演示網站:
https://pair-code.github.io/facets
此網站允許任何人直接在瀏覽器中視覺化他們自己的資料集,而不必安裝或設定任何軟體,甚至不需要資料離開您的計算機。
Facets Overview
Facets Overview 自動幫助使用者快速理解其資料集特性的值分佈。可在同一個視覺化檢視中比較多個資料集(如訓練集和測試集)。妨礙機器學習的常見資料問題被推到前端,例如,異常的特性值、缺失值比例很高的特性、分佈不均的特性,以及資料集之間偏態分佈的特性。
▲ Facets Overview 以視覺化方式顯示 UCI 人口普查資料集的六個數字特性。這些特性按照不均勻性排序,分佈最不均勻的特性位於頂部。紅色的數字表示可能的故障點,在這種情況下,將帶有高比例值的數字特性設為 0。右側的柱狀圖允許您比較訓練資料(藍色)和測試資料(橙色)之間的分佈。
▲ Facets Overview 以視覺化方式顯示 UCI 人口普查資料集九個分類特性中的兩個特性。這些特性按分佈間距排序,訓練資料集(藍色)和測試資料集(橙色)之間偏態最顯著的特性位於頂部。請注意,在“Target”特性中,由於測試資料集中的值末尾帶有句點(“<=50K”與“<=50K.”),訓練資料集與測試資料集的標籤值存在差異。這個差異可在特性圖表中以及表格的“首列”條目中看到。這種標籤不匹配性將導致針對該資料進行訓練和測試的模型無法得到正確評估。
Facets Dive
Facets Dive 提供了一個易於自定義的直觀介面,用於探索資料集中不同特性資料點之間的關係。藉助 Facets Dive,您可以根據每個資料點的特性值來控制資料點的位置、顏色和視覺表徵。如果資料點具有與其關聯的影象,則可使用影象作為視覺表徵。
▲ Facets Dive 對“Quick, Draw!”資料集中大量面部繪圖進行的視覺化處理,結果顯示了繪圖中筆畫數與點數之間的關係,同時可使“Quick, Draw!”分類器將這些繪圖正確歸類為面部。
有趣的事實: 在大型資料集中(如 CIFAR-10 資料集),一個小小的人為標記錯誤很容易被忽視。我們通過 Dive 檢查了 CIFAR-10 資料集,結果發現了一隻青蛙貓——一張青蛙圖片被錯誤標記為貓!
▲ 您能找出那隻青蛙貓嗎?
在 Google 內部,我們已藉助 Facets 實現巨大價值,現在,我們期望與全世界分享這些視覺化工具。我們希望這些工具能幫助您發現您的資料中的新鮮有趣的事實,進而激發您建立出更強大、更準確的機器學習模型。由於這些工具已開放原始碼,因此,您可以根據您的具體需求自定義視覺化內容,或為該專案做貢獻,以幫助我們更好地理解我們的資料。
致謝
這項工作由 Mahima Pushkarna、James Wexler 和 Jimbo Wilson 在整個 Big Picture 團隊的支援下共同開展。同時我們要感謝 Justine Tunney,感謝他為我們提供構建工具。
檢視全文及文中連結,請點選文末“閱讀原文”。
推薦閱讀:
相關文章
- 機器學習演算法的開源視覺化工具: MLDemos機器學習演算法視覺化
- 從零開始學機器學習——聚類視覺化機器學習聚類視覺化
- Google釋出機器學習術語表 (中英對照)Go機器學習
- Google開源TensorFlow強化學習框架!Go強化學習框架
- 從零開始學機器學習——準備和視覺化資料機器學習視覺化
- 收藏 | Google 釋出關於機器學習工程的最佳實踐Go機器學習
- 10個必備的機器學習開源工具機器學習開源工具
- 開源線上視覺化流程編輯器視覺化
- 劍橋大學等開源RLgraph框架,讓強化學習測試視覺化框架強化學習視覺化
- 開源!《模式識別與機器學習(PRML)》筆記、程式碼、NoteBooks 釋出模式機器學習筆記
- 機器學習工作坊 - 計算機視覺機器學習計算機視覺
- 利用開源視覺化報表工具進入流程化辦公!視覺化
- 《李巨集毅機器學習完整筆記》釋出,Datawhale開源專案LeeML-Notes機器學習筆記
- 《李宏毅機器學習完整筆記》釋出,Datawhale開源專案LeeML-Notes機器學習筆記
- apple/GCGC:蘋果開源其視覺化 Java 垃圾收集器日誌的工具APPGC蘋果視覺化Java
- 嵌入式視覺領域的機器學習視覺機器學習
- 開源機器學習系統(一)機器學習
- Django 視覺化Web展示 學習Django視覺化Web
- 清華大學劉世霞“可解釋機器學習的視覺化分析”(附PPT)機器學習視覺化
- labview 標定 labview 機器視覺 零基礎 教程 培訓 學習 視覺View視覺
- AI/機器學習(計算機視覺/NLP)方向面試複習1AI機器學習計算機視覺面試
- 機器視覺學習筆記:臉性別識別視覺筆記
- 機器視覺軟體中的深度學習技術視覺深度學習
- 關於機器視覺學習路線的問題?視覺
- 關聯資料的釋出與視覺化視覺化
- 【機器學習】實現層面 決策樹 並用graphviz視覺化樹機器學習視覺化
- 學習python視覺化,matplotlib庫學習,基本操作Python視覺化
- 機器學習可解釋性工具箱XAI機器學習AI
- (資料科學學習手札156)地圖視覺化神器kepler.gl 3.0版本釋出資料科學地圖視覺化
- 機器學習資源機器學習
- 深度學習(視覺化卷積核)深度學習視覺化卷積
- 資料視覺化Seaborn從零開始學習教程(三) 資料分佈視覺化篇視覺化
- json-schema 視覺化編輯器釋出了JSON視覺化
- 《Python機器學習與視覺化分析實戰》簡介Python機器學習視覺化
- [譯] 使用 Python Flask 框架釋出機器學習 APIPythonFlask框架機器學習API
- 自動駕駛方程式賽車,微軟釋出機器學習開源框架 | AI一週學術自動駕駛微軟機器學習框架AI
- 機器學習強化下,機器人將掌握工具的使用機器學習機器人
- 【Tensorflow_DL_Note15】TensorFlow視覺化學習2-用Matplotlib視覺化視覺化
- 23 款開源的聲音、視覺生產工具視覺