NeurlPS 2019丨微軟亞洲研究院精選論文解讀

微軟研究院AI頭條發表於2019-12-10

近視反饋下的自適應影響力最大化

Adaptive Influence Maximization with Myopic Feedback

論文連結:https://papers.nips.cc/paper/8795-adaptive-influence-maximization-with-myopic-feedback.pdf

影響力最大化研究在社交網路中如何選取少量結點(稱為種子結點)使得透過影響力傳播產生的影響力最大。影響力最大化可以應用到口碑營銷、留言監控等涉及網路傳播的方面,在學術界有廣泛研究。

本篇論文著重研究自適應最大化,即種子結點的選取不是一次完成,而是一次選一個或幾個,再根據已選種子的傳播結果決定後續選哪些種子。我們特別研究自適應影響力最大化中的近視反饋情形,即每選取一個種子結點後我們只能得到它對其網路中的直接鄰居的啟用情況作為反饋,而不能看到後續的傳播情況。

在 Golovin 和 Krause(2011)的關於自適應最佳化的經典論文中,他們指出近視反饋下的自適應影響力最大化不滿足自適應次模性,所以自適應貪心演算法不能保證(1-1/e)的近似比,但他們猜想存在常數近似比的自適應演算法。我們在這篇文章中對這個開放多年的猜想給出了肯定的回答。

我們從研究近視反饋下的自適應差距(adaptivity gap)—— 即自適應模型下的最優解和非自適應模型下的最優解之間的比值 —— 入手,證明了近視反饋下影響力最大化的自適應差距最大是4,最小是 e/(e-1)。從這個結論,我們進一步論證自適應貪心演算法得到的解是自適應最優解的 1/4(1-1/e) 近似, 但存在例項近似比不會好於 (e^2+1)/(e+1)^2。我們的研究是極少數對於不滿足自適應次模性的最佳化問題也能給出常數自適應差距論證的工作。所以它不僅擴充套件了自適應影響力最大化的研究,也對一般自適應最佳化給出了新的研究方向,而自適應最佳化在機器學習資料探勘的很多方面都有應用。

基於分佈強化學習的獎勵分解

Distributional Reward Decomposition for Reinforcement Learning

論文連結:https://arxiv.org/abs/1911.02166

近年來,深度強化學習已經廣泛地應用在遊戲、圍棋、機器人等領域。但深度強化學習依然面臨著樣本效率低和可解釋差等挑戰。如何利用問題的特殊性質來設計更高效的演算法便是其中一個重要的研究方向。獎勵分解(reward decomposition)就是解決這個問題的一個重要分支。

現有的獎勵分解演算法是比較侷限的。Van Seijen 等人提出,根據先驗知識將狀態空間切分,然後根據給定的獎勵函式學習不同的價值函式,再相加構成最終的價值函式。然而,先驗知識的引入限制了該方法的通用性。為了設計更具一般性的演算法,Grimm 和 Singh 設計了一個新的損失函式,透過最大程度地消除子獎勵之間的糾纏(disentanglement)來實現獎勵分解。然而,該方法需要環境具有重置的特殊功能,同樣限制了在通用環境上的應用。

受分佈強化學習的啟發,我們提出了一個新的獎勵分解框架 DRDRL。該方法在不需要先驗知識和特殊環境設定的前提下,能夠在智慧體學習過程中發現有意義的隱式獎勵分解,並且提升了 RAINBOW 演算法的效能。

在 DRDRL 中,我們將子獎勵(sub reward, r_i)視為隨機變數,將其對應的子獎勵之和(sub return, Z_i)所對應的分類分佈用 F_i 來描述。透過進行獨立性假設,最終 Q 函式對應的分佈 F 可以表示為不同子分佈 F_i 之間的的一維卷積:

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

在這個新的表示形式下,我們可以推匯出隱式的獎勵分解表示式:

NeurlPS 2019丨微軟亞洲研究院精選論文解讀
NeurlPS 2019丨微軟亞洲研究院精選論文解讀

進一步,為了使得各個子分佈 F_i 能得到不同的獎勵分解,我們在最佳化過程中加入瞭如下的約束,即最大化下面的指標:

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

該約束會將不同分支所對應的動作之間的差別最大化,從而使得網路能學習到獨立的子獎勵。

此外,為了防止訓練過程中不同的分支交換導致訓練不穩定,我們借鑑了 UVFA 的思想,對不同的分支輸入額外的表徵分支的向量,從而得到多渠道的狀態特徵(multi-channel state feature),使得訓練更加高效,最終的網路結構如圖1所示。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

圖1:DRDRL 網路架構

我們將 DRDRL 在 Atari 遊戲上進行了測試(圖2),結果顯示我們的方法能大幅度提高 RAINBOW 的效能。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

圖2:DRDRL 在 Atari 遊戲上的測試結果

同時,我們的演算法也能得到有意義的獎勵分解(圖3)。當畫面中的潛艇上岸補充氧氣時,第一個分支 r_1 能捕獲更多的獎勵訊號;相反當潛艇射擊小魚時,第二個分支 r_2 能捕獲更多的獎勵訊號。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

圖3:DRDRL 得到的有意義的獎勵分解

我們用 saliency maps 對訓練結果進行視覺化,發現不同的分支能夠 attend 到 state 當中不同的區域,這也使得我們的方法訓練出來的智慧體具有較強的可解釋性。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

圖4:訓練結果的視覺化

更快、更魯棒、更可控的語音合成系統 FastSpeech

FastSpeech: Fast, Robust and Controllable Text to Speech

論文連結:https://papers.nips.cc/paper/8580-fastspeech-fast-robust-and-controllable-text-to-speech.pdf

更多 Demo 聲音請訪問:https://speechresearch.github.io/fastspeech/

近年來,基於神經網路的端到端文字到語音合成(Text-to-Speech, TTS)技術取了快速發展。然而這種技術依然面臨以下幾個問題:(1)合成語音的速度較慢;(2)合成的語音穩定性較差;(3)缺乏可控性。

為了解決上述的一系列問題,本文提出了一種基於 Transformer 的新型前饋網路 FastSpeech,可以並行、穩定、可控地生成高質量的梅爾譜,再借助聲碼器並行地合成聲音。FastSpeech 模型結構如下圖所示,主要構成為前饋神經網路(Feed-Forward Transformer),長度調節器(Length Regulator)以及音素持續時間預測器(Duration Predictor)。前饋神經網路能讓模型並行的生成梅爾譜,同時拋棄了傳統的編碼器-注意力-解碼器結構,提高合成語音的穩定性。長度調節器透過音素時間預測器來預測每個因素的持續時間,進而調整音素序列和梅爾譜序列的長度差異,同時還能調節生成語音的語速以及停頓等。詳細模型結構可參見論文。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

圖5:FasSpeech 網路架構

FastSpeech 在訓練過程中採用 teacher-student 模式,teacher 模型為自迴歸的 Transformer TTS,student 模型為 FastSpeech。在 LJSpeech 資料集上的實驗表明,FastSpeech 具有以下幾點優勢:

(1)快速:如表1所示,與自迴歸的 Transformer TTS 相比,FastSpeech 將梅爾譜的生成速度提高了近270倍,將端到端語音合成速度提高了近38倍,單 GPU 上的語音合成速度是實時語音速度的30倍。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

表1:測試集上不同模型的語音合成速度比較

(2)魯棒:幾乎完全消除了合成語音中重複吐詞和漏詞問題;

(3)可控:可以平滑地調整語音速度和控制停頓以部分提升韻律;

最後,FastSpeech 的語音質量可以與傳統端到端自迴歸模型(如Tacotron 2和Transformer TTS)相媲美(如表2所示)。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

表2:FastSpeech 的語音質量與傳統端到端自迴歸模型的對比

基於 soft 原型的神經機器翻譯

Neural Machine Translation with Soft Prototype

論文連結:http://papers.nips.cc/paper/8861-neural-machine-translation-with-soft-prototype.pdf

機器翻譯模型在生成序列的時候,通常採用單階段解碼過程。這種生成模式存在的一個侷限性,就是生成過程沒有很好地應用好目標端的全域性資訊。之前的工作提出了許多不同的方法利用全域性資訊克服這種侷限,包括引入額外的網路結構生成一箇中間序列;或是從已有的語料集中檢索出中間序列。這些不同方法都有著相同的基本思想,即是將一個原型序列(prototype sequence)引入到標準編碼器-解碼器框架中。

一個好的原型序列應該具有以下兩條特性:一是高質量,原型序列應該是一個包含豐富的全域性資訊並且方差較低的高質量向量表示;二是高效率,原型序列應該容易生成,不會帶來過多的時間和儲存開銷。先前工作中提出的原型序列都能比較好地表達全域性資訊,但是生成過程效率比較低。而且,由於生成開銷較大,先前工作在實踐中通常利用單一序列作為 hard 原型,這樣會引入較大方差,對最終生成質量帶來負面影響。

本研究中,我們提出了一個引入 soft 原型序列的框架來充分利用目標端的全域性資訊,引入原型序列後的通用框架可以表示為:

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

其中 Enc 和 Dec 分別是標準編碼-解碼器框架中的編碼器和解碼器網路,Net 是一個額外用於編碼原型序列 R 的網路。定義 E_y 為目標域的詞向量矩陣,維度為 |V_y| × d。用 1(y’) 表示目標域的序列 y’ 所對應的維度為 l_y'×|V_y| 的獨熱向量表達,其中的每一行對應一個單詞的獨熱向量。序列 y’ 的 soft 原型序列 R 計算為:

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

在此框架的基礎上,我們提出一種更高效的原型序列生成方法。我們利用一個機率生成器 g,將輸入單詞投影到一個目標域詞表上的機率分佈,即 g(v_x)=(p_1,p_2,…,p_|V_y| ),∑p_j=1。對於任意序列 x,第 i 個詞 x_i 透過生成器對映為 ∑_j g_j (x_i ) e_j 的原型序列表示。這種生成方式有兩個好處:和先前工作中解碼或檢索的原型序列生成方法相比,這裡 G_y 採用非自迴歸的生成方式,顯著提高了生成效率;同時,先前工作中通常採用單一原始序列,而 soft 原型序列包含多個候選翻譯內容,為解碼器提供更加豐富且方差更低的表達。

我們以機器翻譯為例,在 Transformer 模型上介紹這種原型序列。如下圖所示,對於給定輸入序列,首先利用上述機率生成器 g 獲得原型序列 R,並利用網路 Net 將其編碼為上下文向量表示。原始輸入序列和原型序列的上下文表示共同作用於解碼器的編碼-解碼注意機制中,進行解碼。

NeurlPS 2019丨微軟亞洲研究院精選論文解讀

圖6:soft 原型序列在 Transformer 中的應用

我們在有監督翻譯、半監督翻譯和無監督翻譯上展開實驗,均驗證了我們演算法的有效性。

用於細粒度影像表示的深度雙線性變換學習

Learning Deep Bilinear Transformation for Fine-grained Image Representation

論文連結:https://papers.nips.cc/paper/8680-learning-deep-bilinear-transformation-for-fine-grained-image-representation.pdf

程式碼連結:https://github.com/researchmm/DBTNet

基於部位檢測的表達學習需要顯式地定位到各個部位,並對定位到的部位進行放大、對齊等,來進一步得到更好的表達。這類方法通常會伴隨複雜的部位處理和較多的計算量,有很多方法還會因為將定位和分類分成兩個子任務而無法得到全域性最優解。基於雙線性的特徵學習透過對特徵向量進行外積操作來實現通道資訊之間的逐對互動,從而得到對細節資訊更好的表達。但受到極高維的雙線性特徵的影響,這類方法會大大增加引數量,而且只能被應用在神經網路的最後一層,作為一種池化操作。

針對以上問題,我們提出了“利用基於部位的語義資訊,得到一種低維而高效的雙線性表達”的構想,讓能夠表達豐富細節的雙線性特徵能夠很深地整合到卷積神經網路中,因此提出了深度雙線性網路(Deep Bilinear Transformation Network, DBT-Net)網路結構。

我們透過設計一種語義分組的約束將卷積特徵的各個通道進行分組,然後對同一組內的通道進行雙線性操作,得到針對這個語義的豐富的細節表達,再將不同組之間的雙線性表達求和得到低維特徵。用於分組的約束要求同一個語義組內的卷積通道兩兩之間有儘可能大的空間交疊,而不同元件的通道盡可能沒有交疊。這種逐對的分組約束可以使後續的分組雙線性操作更好地捕捉針對每個語義塊的細節特徵。

我們設計的深度雙線性轉換模組可以很容易地整合到深度卷積神經網路的結構中。比如可以將其插入到傳統殘差塊(ResNet Bottleneck Block)的第一個卷積層和第二個卷積層之間來得到能夠融合雙線性特徵的殘差塊。 

為了驗證我們提出的深度雙線性轉換的有效性,我們在三個常用的細粒度分類資料集上進行了實驗,均取得了明顯的提高。

相關文章