TensorFlow除錯程式介紹

谷歌開發者_發表於2017-03-02

640?wx_fmt=gif

640?wx_fmt=png


文 | Google 工具和基礎架構軟體工程師 Shanqing Cai


我們懷著激動的心情與大家分享 TensorFlow 除錯程式 (tfdbg),這個工具可以簡化 TensorFlow 中對機器學習 (ML) 模型的除錯。


TensorFlow 是 Google 的開源 ML 內容庫,基於資料流圖表。一個典型的 TensorFlow ML 程式包括兩個獨立的階段:

  1. 利用內容庫的 Python API 將 ML 模型設定為資料流圖表;

  2. 利用 Session.run() 方法在圖表上訓練或執行推理。


如果在第二階段(即 TensorFlow 執行時)出現錯誤和缺陷,將難以進行除錯。


要了解出現這種情況的原因,請注意對標準 Python 除錯程式而言,Session.run() 呼叫實際上是單個語句,它並不會公開執行中圖表的內部結構(節點及其連線)和狀態(節點的輸出陣列 或 張量)。gdb 等較低階別的除錯程式在組織堆疊框架和變數值時無法令其與 TensorFlow 圖表操作產生關聯。專業級執行時除錯程式是 TensorFlow 使用者最常提出的功能請求之一。


tfdbg 滿足了這一執行時除錯需求。讓我們通過一段簡短的程式碼來了解 tfdbg 的實用效果,這段程式碼的作用是建立並執行一個簡單的 TensorFlow 圖表,以通過梯度下降法擬合一個簡單的線性方程。


640?wx_fmt=png


正如本例中突出顯示的線條所示,會話物件包裝成一個用於除錯的類 (LocalCLIDebugWrapperSession),因此呼叫 run() 方法會啟動 tfdbg 的命令列介面 (CLI)。您可以利用滑鼠點選或命令執行一遍連續執行呼叫,檢查圖表的節點及其屬性,通過中間張量列表將圖表中所有相關節點完整的執行歷史記錄視覺化。通過使用 invoke_stepper 命令,您可以讓 Session.run() 呼叫在“步進器模式”下執行,在這種模式下,您可以步進到自己選擇的節點,觀察並修改其輸出,然後再執行進一步的分步除錯,其執行方式與除錯過程語言(例如 gdb 或 pdb)類似。


在開發 TensorFlow ML 模型時一類經常遇到的問題是,因溢位、除零、log(0) 等錯誤而導致出現無效數值(無窮大和 NaN)。在大型 TensorFlow 圖表中,查詢此類節點的根源可能既繁瑣又耗時。藉助於 tfdbg CLI 及其條件斷點支援,您可以快速找到引發問題的根源節點。下面這段視訊演示瞭如何利用 tfdbg 除錯神經網路中存在的無窮大/NaN 問題:


TensorFlow 除錯程式實用效果抓屏,摘自此教程:

www.tensorflow.org/programmers_guide/debugger


與列印選項等替代性除錯選項相比,tfdbg 需要改動的程式碼行數更少,提供的圖表覆蓋範圍更大,並且提供的除錯體驗互動性更強。它可以加快您的模型開發速度和除錯工作流執行速度。它還提供了其他功能,例如離線除錯從伺服器環境轉儲的張量並將其與 tf.contrib.learn 整合。首先,請訪問此文件。這篇研究論文對 tfdbg 的設計做了更詳盡的展示。


使用 tfdbg 時要求安裝的最低 TensorFlow 版本為 0.12.1。要報告錯誤,請在 TensorFlow 的 GitHub 問題頁面上設立問題。如需獲得一般使用幫助,請在 StackOverflow 上使用 tensorflow 標記發帖提問。


推薦閱讀:

TensorFlow 1.0 釋出,更快、更靈活、更方便!(含峰會主題演講視訊)

盤點Google機器學習開源專案一年來的小成就

TensorFlow 與機器學習開發者峰會


640?wx_fmt=gif

相關文章