Google釋出機器學習開源視覺化工具Facets

谷歌開發者_發表於2017-07-26

文 / Google Big Picture 團隊高階軟體工程師 James Wexler


要通過機器學習 (ML) 模型取得最佳結果,您需要真正理解您的資料。然而,機器學習資料集可能包含數以億計的資料點,每個資料點又都包含數百個(甚或數千個)特性,因此,直觀地理解整個資料集幾乎是不可能的。視覺化工具有助於發現大型資料集的微妙之處並從中發現真知灼見。一張圖片傳達的資訊勝過千言萬語,而一個直觀的視覺化工具則更勝一籌。


640?wx_fmt=png


在執行 PAIR 計劃的過程中,我們釋出了 Facets,一個用於幫助理解和分析機器學習資料集的開放原始碼視覺化工具。


可使用 Facets Overview 瞭解資料的每個具體特性,或使用 Facets Dive 探究個別觀察的資料集。這些視覺化選擇允許您除錯您的資料,這在機器學習中與除錯您的模型一樣重要。您可在 Jupyter notebooks 內部輕鬆使用它們,也可將其嵌入網頁。除開放原始碼外,我們還建立了一個 Facets 演示網站:

https://pair-code.github.io/facets


此網站允許任何人直接在瀏覽器中視覺化他們自己的資料集,而不必安裝或設定任何軟體,甚至不需要資料離開您的計算機。



Facets Overview

Facets Overview 自動幫助使用者快速理解其資料集特性的值分佈。可在同一個視覺化檢視中比較多個資料集(如訓練集和測試集)。妨礙機器學習的常見資料問題被推到前端,例如,異常的特性值、缺失值比例很高的特性、分佈不均的特性,以及資料集之間偏態分佈的特性。


640?wx_fmt=png

▲ Facets Overview 以視覺化方式顯示 UCI 人口普查資料集的六個數字特性。這些特性按照不均勻性排序,分佈最不均勻的特性位於頂部。紅色的數字表示可能的故障點,在這種情況下,將帶有高比例值的數字特性設為 0。右側的柱狀圖允許您比較訓練資料(藍色)和測試資料(橙色)之間的分佈。    


640?wx_fmt=png

▲ Facets Overview 以視覺化方式顯示 UCI 人口普查資料集九個分類特性中的兩個特性。這些特性按分佈間距排序,訓練資料集(藍色)和測試資料集(橙色)之間偏態最顯著的特性位於頂部。請注意,在“Target”特性中,由於測試資料集中的值末尾帶有句點(“<=50K”與“<=50K.”),訓練資料集與測試資料集的標籤值存在差異。這個差異可在特性圖表中以及表格的“首列”條目中看到。這種標籤不匹配性將導致針對該資料進行訓練和測試的模型無法得到正確評估。    



Facets Dive

Facets Dive 提供了一個易於自定義的直觀介面,用於探索資料集中不同特性資料點之間的關係。藉助 Facets Dive,您可以根據每個資料點的特性值來控制資料點的位置、顏色和視覺表徵。如果資料點具有與其關聯的影象,則可使用影象作為視覺表徵。


640?wx_fmt=png

▲ Facets Dive 對“Quick, Draw!”資料集中大量面部繪圖進行的視覺化處理,結果顯示了繪圖中筆畫數與點數之間的關係,同時可使“Quick, Draw!”分類器將這些繪圖正確歸類為面部。    


有趣的事實: 在大型資料集中(如 CIFAR-10 資料集),一個小小的人為標記錯誤很容易被忽視。我們通過 Dive 檢查了 CIFAR-10 資料集,結果發現了一隻青蛙貓——一張青蛙圖片被錯誤標記為貓!


640?wx_fmt=png

▲ 您能找出那隻青蛙貓嗎?    


在 Google 內部,我們已藉助 Facets 實現巨大價值,現在,我們期望與全世界分享這些視覺化工具。我們希望這些工具能幫助您發現您的資料中的新鮮有趣的事實,進而激發您建立出更強大、更準確的機器學習模型。由於這些工具已開放原始碼,因此,您可以根據您的具體需求自定義視覺化內容,或為該專案做貢獻,以幫助我們更好地理解我們的資料。



致謝

這項工作由 Mahima Pushkarna、James Wexler 和 Jimbo Wilson 在整個 Big Picture 團隊的支援下共同開展。同時我們要感謝 Justine Tunney,感謝他為我們提供構建工具。


檢視全文及文中連結,請點選文末“閱讀原文”。


推薦閱讀:

重新審視深度學習時代資料的非理性效果

Google Brain學員計劃第一期有哪些前沿研究?

2017 TensorFlow 開發者峰會中文字幕視訊釋出

釋出Tensor2Tensor,加快深度學習研究


640?wx_fmt=gif

相關文章