SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

機器之心發表於2019-02-27

選自arXiv,作者:Daniel Cohen等,機器之心編譯。

ACM 國際資訊檢索研究與發展會議 SIGIR 2018 近日於美國密歇根州 Ann Arbor 舉行。目前,大會已公佈最佳論文等獎項,馬德里自治大學(Universidad Autónoma de Madrid)的論文《Should I Follow the Crowd? A Probabilistic Analysis of the Effectiveness of Popularity in Recommender Systems》獲得了最佳論文獎,微軟與馬薩諸塞大學阿姆赫斯特分校合作論文《Cross-Domain Regularization for Neural Ranking Models Using Adversarial Learning》獲得最佳短論文獎。本文將對最佳短論文進行簡要介紹。

1 引言

近期學界有多個神經排序模型被提出,這些模型通過考慮原始查詢-文件文字(query-document text)[14]、基於確切的查詢詞項匹配文件的模式 [5],或結合二者 [10] 來估計文件與查詢之間的相關性。這些模型通常通過在訓練過程中觀察大量相關和不相關的樣本,來學習區分對應相關查詢-文件對和相關性較低的查詢-文件對的輸入特徵分佈。與依賴人工製作特徵的傳統學習排序(LTR)模型不同,這些深度神經模型直接從資料中學習可用於目標任務的更高階別表徵。它們從訓練資料中學習特徵的能力是一個強大的屬性,使之有潛力發現手動製作特徵沒有捕獲的新關係。

但是,正如 Mitra 和 Craswell [9] 所討論的那樣,學習新特徵的能力可能以在訓練過程未涉及域上的較差泛化能力和效能為代價。例如,模型可能觀察到某一對短語在訓練語料庫中同時出現的頻率比其他短語高,如「Theresa May」和「Prime Minister」。或者,模型可能基於短語在訓練查詢中共現的相對頻率,推斷得到學習「Theresa May」的優秀表徵比學習「John Major」的表徵更加重要。儘管要想在單個域中取得最佳效能這些相關性和分佈很重要,但是如果我們更關心模型在未見過域上的效能,那麼模型必須學習對未見域具備更強的魯棒性。與之相反,傳統的檢索模型(如 BM25 [12])和 LTR 模型通常在跨域效能方面展示出較強的魯棒性。

本研究的目標是訓練從資料中學習有用表徵的深度神經排序模型,且不會與訓練域的分佈產生「過擬合」。近期,對抗學習已經被證實是一個適合分類任務的有效跨域正則化項 [3, 17]。本論文研究者對此進行調整,提出一種類似策略,可使神經排序模型學習對不同域具備更強魯棒性的表徵。研究者在小型域集合上訓練神經排序模型,並在留出域上評估模型效能。訓練過程中,研究者結合神經排序模型和對抗判別器,後者嘗試基於排序模型學習到的表徵預測訓練樣本的域。當反向傳播通過排序模型的層時,對抗判別器的梯度被逆轉。這向排序模型提供了負反饋,阻止它學習僅對特定域有意義的表徵。實驗證明該對抗訓練在留出域上的排序效能有一致的改進,有時甚至實現高達 30% 的 precision@1 改進。

3 利用對抗學習的跨域正則化

對抗判別器的動機是使神經模型學習獨立於域的特徵,這些特徵有助於估計相關性。傳統神經排序模型的訓練目的僅僅是優化相關性評估,無視內部學到的特徵的本質。本論文研究者提出使用對抗智慧體,通過在流形上域特定空間上調整模型引數方向(至相反方向)來使排序模型學到的特徵獨立於域。這種通過域混淆(domain confusion)[17] 的跨域正則化可以用以下聯合損失函式來表示:

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

其中 L_rel 是基於損失函式的相關性,L_adv 是對抗判別器損失。q、docr 和 docnr 分別是查詢、相關文件和無關文件。最後,θ_rel 和 θ_D 分別是相關性模型和對抗模型的引數。λ 決定域混淆損失對優化過程的影響程度。研究者將其作為訓練過程中的一個超引數。排序模型在多個訓練域 D_train = {d_1, . . . ,d_k } 上進行訓練,在留出域 D_test = {d_k+1 , . . . ,d_n } 上進行評估。

判別器是檢查排序模型隱藏層輸出的分類器,且嘗試預測訓練樣本的域 d_true ∈ D_train。判別器使用標準交叉熵損失進行訓練。

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

梯度更新通過在所有後續層上的反向傳播來執行,包括屬於排序模型的層。但是,研究者利用了梯度逆轉層(gradient reversal layer,Ganin et al. [3])。該層將標準梯度

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

轉換成其加法逆元(additive inverse)

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

。這導致 θ_rel 最大化域識別損失(domain identification loss),同時仍然允許 θ_D 學習判別域。儘管並未直接進行優化,但這可以視為通過 L_adv 的正負變換(sign change)對 (1) 進行修正。

行人檢索模型。研究者在行人檢索任務上評估了該對抗學習方法。他們使用 Tan 等人 [16] 提出的神經排序模型(下文中用 CosSim 指代)和 Duet 模型 [10] 作為基線模型。本論文重點是學習獨立於域的文字表徵。因此,與 Zamani et al. [20] 類似,本研究僅考慮 Duet 模型的分散式子網路。

CosSim 模型是一個基於 LSTM 的互動作用架構。研究者使用 [16] 的方法訓練 CosSim 模型,得到了比 hinge 損失函式高出 0.2 的結果。按照 [10] 提出的方法,通過最大化正確行人的對數似然來訓練 Duet-distributed 模型。與 [11] 類似,研究者調整 Duet 模型的超引數,以適應行人檢索任務。經過最大池化表徵,哈達瑪積(Hadamard product)的輸出被顯著降低,查詢長度從 8 個 token 擴充套件到 20 個,最大文件長度從初始的 1000 個 token 減少到 300。

與之前使用對抗方法的研究 [3, 6, 17] 不同,排序需要建模查詢和文件之間的互動。如圖 1a 所示,在該設定中,對抗判別器檢查神經排序模型學到的查詢-文件聯合表徵。對於更深的架構,如 Duet-distributed 模型,研究者允許判別器在排序模型中檢查額外的層,如圖 1b 所示。

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

圖 1:兩個基線模型(CosSim 和 Duet-distributed)使用對抗判別器的跨域正則化。判別器檢查排序模型學到的表徵,並對任意幫助域判別的表徵提供負反饋訊號。

5 結果和討論

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

表 1:模型在 L4 topics 上的表現,每個集合下的度量指標表示在其他兩個集合上訓練的模型的效能。All*指整個 L4 集合(刪除了目標話題)。† 表示相比非對抗模型的顯著效能提升(p < 0.05,Wilcoxon 檢驗)。

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

表 2:跨集合的效能,每個集合下的效能代表在其他兩個集合上訓練的模型的效能。† 表示相比非對抗模型的顯著效能提升(即 p<0.05,Wilcoxon 檢驗)

論文:Cross Domain Regularization for Neural Ranking Models Using Adversarial Learning

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

論文連結:arxiv.org/abs/1805.03…

摘要:與傳統學習排序模型依賴於手動製作特徵的情況不同,神經表徵學習模型通過在大型資料集上的訓練,為排序任務學習更高階別的特徵。然而,這種直接從資料中學習新特徵的能力可能得付出代價。在沒有任何特殊監督的情況下,這些模型可以學到僅在訓練資料取樣領域中存在的關係,卻很難泛化至訓練期間未觀察到的領域。我們在排序任務上研究了將對抗學習作為跨域正則化項的有效性。我們使用對抗判別器在少量域上訓練我們的神經排序模型,判別器提供負反饋訊號以阻止模型學習域特定的表徵。我們的實驗表明,在使用對抗判別器時,模型在留出域上的表現始終更好——有時甚至實現高達 30% 的 precision@1 改進。

SIGIR2018大會最佳短論文:利用對抗學習的跨域正則化

相關文章