阿里推出DeepInsight平臺:視覺化理解深度神經網路CTR預估模型

AI前線發表於2018-07-09
阿里推出DeepInsight平臺:視覺化理解深度神經網路CTR預估模型
本論文已被 SIGIR 2018 接收
作者 | 郭霖 葉卉 蘇文博 劉賀歡 孫凱 向杭 侯俊
編輯 | Natalie
AI 前線導讀:由於人類對於世界的認知和感受主要來自於視覺,良好的視覺化可以有效的幫助人們理解深度神經網路,並進行有效的評估、優化和調節。而視覺化的前提是對模型進行相關資料透出,從而進行視覺化分析評估,最終使得神經網路從“黑盒”向“白盒”過渡。針對這些挑戰,阿里巴巴團隊搭建了一個面向工業級大規模深度學習應用的視覺化分析平臺—DeepInsight。 AI 前線第 39 篇論文導讀將為你解讀這個視覺化平臺,並帶你瞭解阿里巴巴如何基於它視覺化地理解深度神經網路 CTR 預估模型。

更多優質內容請關注微信公眾號“AI 前線”(ID:ai-front)
背景

深度學習在研究和應用領域都已取得了重大的進展。但迄今為止,深度學習演算法仍不夠透明,多被做“黑盒”使用。近年來,人們開始致力於去更透徹地理解深度學習內部的複雜機理,從而確保演算法安全可靠或達到進一步優化的目的。

儘管業界對於影象處理和自然語言處理領域,在演算法可解釋性方向上已經取得了一些進展,但對於電商與廣告領域,目前還是空白。另一方面,深度學習技術已經開始被大規模應用到廣告業務中。廣告是很多網際網路現金流的重要來源,是核心業務。深度神經網路模型是核心業務中的核心模組,有效理解和評估這一“黑盒”演算法變得非常重要。

由於人類對於世界的認知和感受主要來自於視覺,良好的視覺化可以有效的幫助人們理解深度神經網路,並進行有效的評估、優化和調節。而視覺化的前提是對模型進行相關資料透出,從而進行視覺化分析評估,最終使得神經網路從“黑盒”向“白盒”過渡。針對這些挑戰,我們搭建了一個面向工業級大規模深度學習應用的視覺化分析平臺—DeepInsight。

我們將針對電商場景下的廣告點選率(CTR)預估,以一個簡單但具有代表性的深度神經網路模型為例,舉例介紹在幾個典型而重要的問題上模型視覺化分析的應用:1. 泛化效果評估;2. 特徵設計;3. 模型結構設計。

大多數影象或自然語言處理的研究著眼於從樣本粒度出發去視覺化理解模型。區別於這些研究場景,工業界的 CTR 預估面對的是海量規模的資料與特徵、有偏的帶標籤資料、稀疏而複雜多樣的訊號模式,而最終效果評估首要關注的是巨集觀的商業指標。從業務特點出發,我們以統計訊號入手,探索理解模型在整個目標資料集上的巨集觀表現。相關實驗工作的細節請參閱我們的英文版論文(參見文末連結)。

平臺介紹

DeepInsight 平臺面向工業級深度學習演算法研發與應用,提供完善的模型訓練任務生命週期管理,致力於提供高效全面的資料透出方式,並以深度學習資料的多維度視覺化、大規模資料實時分析、資料再建模等方向作為核心功能。

平臺基於分散式微服務叢集化部署,由前端 WEB 平臺 + 後端微服務 + 深度學習元件等三個子系統構成,各個微服務例項之間是隔離的,互不影響;目前已接入 Tensorflow 和 MXNet 兩個大規模並行訓練框架,支援多工學習、遷移學習、強化學習、GAN、模型融合等複雜場景,旨在通過資料透出及視覺化等手段,提高神經網路的可解釋性,解決模型除錯及問題定位分析等系列問題;以生命週期管理的方式執行訓練任務,從而提供一站式的視覺化評測服務。平臺在賦能業務的同時,業務也會將後期處理過的資料反饋給平臺,從而構建以 DeepInsight 為基礎資料核心的 AI 視覺化生態圈。

阿里推出DeepInsight平臺:視覺化理解深度神經網路CTR預估模型

演算法實驗

不失代表性,模型採用簡單的 GwEN 式結構 [1]。對於每條輸入樣本,稀疏特徵 ID 被對映為低維稠密的 Embedding 向量,然後以特徵組為單位將每組的特徵 ID Embedding 進行 sum pooling 操作,得到該特徵組的 Embedding 向量。各個特徵組的 Embedding 向量被連線在一起,作為輸入傳給後續的全連線層。模型總共有 4 個全連線隱層並以 Relu 為啟用函式。輸出層通過 sigmoid 操作輸出預估點選率(PCTR)。

對於訓練至不同階段的模型,我們通過動態透出的方式收集模型內部在不同資料集上的狀態資料,以此為視覺化分析的基礎。

泛化效果與神經元狀態波動

眾所周知,深度神經網路有強大的擬合能力。隨著訓練進行,模型會不斷地去擬合訓練資料,對輸入資訊中的微小差別越來越敏感。給定模型,每個神經元的狀態由樣本輸入決定。資料集中不同樣本輸入的變化導致神經元狀態的波動,這一波動的程度反應了模型對於輸入資訊的敏感程度。另一方面,模型對訓練資料過於敏感會降低其泛化能力。我們的視覺化清晰地展現了模型泛化效果與神經元狀態波動程度之間的聯絡。

下圖展示了模型第四隱層中每個神經元狀態值的平均波動程度,對比了不同訓練階段的模型在訓練與測試集上的統計表現。在過擬合之前,神經元的波動程度保持相對穩定,訓練 / 測試集間較為一致。過擬合時,波動程度顯著上升,並且訓練集明顯強於測試集。這正反映了過擬合狀態下的模型對訓練資料過度敏感。

阿里推出DeepInsight平臺:視覺化理解深度神經網路CTR預估模型

我們聚合出整個隱層的所有神經元的平均波動程度,發現該指標可以與模型在不同資料集上的效果變化(AUC)相關聯。神經元的波動程度為我們提供了一種理解與檢測過擬合的手段。另外,這個指標計算不需要標籤,因此可以幫助我們在一批拿不到點選反饋的資料集上的評估模型效果。

特徵影響力

比起傳統的邏輯迴歸模型,深度神經網路的一個優點是具有從輸入中自動挖掘非線性交叉特徵的能力。但是實踐發現,輸入特徵本身的質量好壞也極大地影響著模型的效果。

什麼特徵對模型比較重要?對於傳統的邏輯迴歸模型,我們可以通過特徵的權重來認識其重要性。但是,這對於深度神經網路是不適用的。

我們利用梯度資訊來認識各個特徵組對模型的影響。將全連線網路的輸入針對模型輸出(PCTR)求導。該梯度的強度表示了模型的輸出預估對於該輸入的微小變動的敏感度,從而可以反映出該輸入對於模型的影響力。梯度越強,表明該輸入的對模型的影響越大。以每個特徵組聚合各自 Embedding 所對應的梯度的平均強度,可以描述該特徵組對模型的影響。

下圖對比了兩個不同狀態的模型(未過擬合 Vs 過擬合)中的各個特徵組的平均影響力。可以清晰地看到兩個狀態的區別:過擬合時模型對少量幾組特徵過度敏感,尤其是編號為 1 和 11 的特徵組。事實上,這兩個都是具有海量 ID 取值的單個特徵如 user ID,所需引數空間極大,而本身攜帶的可泛化資訊確實很少。

阿里推出DeepInsight平臺:視覺化理解深度神經網路CTR預估模型

隱層的效用與其資訊表徵

我們通過視覺化隱層的輸出向量,展示模型對輸入資訊的綜合表徵,以幫助我們瞭解模型的內在機制以及模型結構對於效果的影響。下圖將不同隱層的輸出向量經過 tsne 投影到 2 維平面。與 [2] 針對影象分類的視覺化結果不同,我們沒有觀察到點選與不點選兩類樣本點的分離。這是由我們場景下樣本資訊的高噪聲所決定的。但是,可以看到點選樣本點有空間聚集。第三層比第二層有更明顯的聚集,表明第三層表徵的資訊更有區分能力。但是第四層卻並沒有顯示出進一步提升。

反過來指導模型結構設計,我們的實驗證明訓練沒有第四層的模型也可以達到與四隱層模型相近的效果。

阿里推出DeepInsight平臺:視覺化理解深度神經網路CTR預估模型

隱層的效用與其表徵再建模

上節介紹了了解每個隱層對於模型分類效果帶來的收益。我們的 DeepInsight 平臺可以讓我們很方便地對透出資料進行再建模,來進一步深化對模型結構的認識。

我們使用 Alain 和 Bengio 提出的探測層方法 [3],將隱層對於樣本的表徵向量作為輸入特徵,同樣以樣本的點選反饋為標籤,訓練邏輯迴歸 probe 模型。對比不同隱層所訓練出的 probe 模型的效果,可以幫助我們瞭解隱層結構對模型效果的作用。如下圖,可以明顯的看到,從第一到第三層,隱層輸出資訊對於點選行為的區分力逐層提升。第四層並沒帶來明顯收益,與上節的結論一致。

阿里推出DeepInsight平臺:視覺化理解深度神經網路CTR預估模型

小結

我們在電商廣告場景下探索深度學習視覺化與可解釋性,通過分析深度神經網路模型內部資料,開啟這個“黑盒”,以求深入理解模型的內部狀態與機制。這些探索被成功地落地到平臺服務,從而助力演算法研發與業務應用。

論文原文地址:

https://arxiv.org/abs/1806.08541

參考文獻:

[1] Guorui Zhou, Chengru Song, Xiaoqiang Zhu, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, Kun Gai. 2017. Deep Interest Network for Click-Through Rate Prediction. arXiv preprint arXiv:1706.06978 (2017).

[2] Paulo Rauber, Samuel Fadel, Alexandre Falcao, and Alexandru Telea. 2017. Visualizing the hidden activity of artificial neural networks. IEEE transactions on visualization and computer graphics 23, 1 (2017), 101–110.

[3] Guillaume Alain and Yoshua Bengio. 2016. Understanding intermediate layers using linear 

相關文章