資訊檢索領域的頂級會議 SIGIR 2017 即將開幕。昨日,機器之心報導了阿里被 SIGIR 2017 接收的一篇論文,據瞭解阿里共有 3 篇論文被此大會接收。本文介紹了另一篇由英國倫敦大學、上海交大、阿里等合著的論文。
論文連結:https://arxiv.org/pdf/1705.10513.pdf
Information Retrieval(IR)的典型問題是給出一些查詢詞(query),返回一個排序的文件列表(documents),但 IR 的應用範圍可以擴充套件到文件檢索、網頁搜尋、推薦系統、QA 問答系統和個性化廣告等等。在 IR 的理論或模型領域,有兩種典型的思維方式(如圖所示):
1、生成式 IR 模型:第一種思想認為 documents 和 query 之間有一個隱含的隨機生成(generative)過程,可以表示成:q→d,其中 q 表示 query,d 表示 document,箭頭表示生成的方向,生成模型對 p(d|q) 進行建模。
2、判別式 IR 模型:第二種思想採用了機器學習的方法,將 IR 的問題轉化成一個判別(discriminative)問題;可以表示成:q+d →r,其中+表示 query 和 document 的特徵的組合,r 表示相關性,如果 r 為 0 或 1,則問題是一個分類問題,如果 r 是一個相關分數,則問題是一個迴歸問題;現在著名的方法就是排序學習(Learning to Rank)。排序學習可以分為 Pointwise、Pairwise 和 Listwise 三種模型。
雖然 IR 的生成模型在 Query 和 Document 的特徵建模(例如文字統計)的方面非常成功,但它在利用來自其他的相關性資訊(如連結,點選等等)方面遇到了很大的困難,而這些資訊主要可以在現在網際網路的應用中觀察得到。於此同時,雖然諸如排序學習的 IR 判別模型能夠從大量的標記和未標記的資料中隱式地學習檢索排序函式,但是它目前缺乏從大量未標記資料中獲取有用特徵或收集有用訊號的原則性方法,特別是從文字統計(源自 Document 和 Query 兩方面)或從集合內相關文件的分佈中。
應用 GAN 的思想,IRGAN 引入博弈論中的 minmax 博弈,來將生成式 IR 模型和判別式 IR 模型進行結合。具體來說,我們為兩個模型定義一個共同的檢索函式(例如基於判別的目標函式)。一方面,判別模型 旨在透過從標記資料中學習來最大化目標函式,併為生成模型提供訓練的指導性資訊。另一方面,生成模型 充當挑戰者,不斷地將判別器的 decision boundary 推向其極限它為判別器迭代地提供最困難的情況,判別器透過對抗的最小化目標函式來重新訓練自身。
下面具體地介紹 IRGAN 的方法,會分別介紹 GAN 中對應的 Discriminator(D)和 Generator(G)。
1. Discriminator: ,其中,φ 是 D 的引數。D 的輸入時 Query-Document 對資料(q,d),而輸出則是這對資料是否匹配。這相當於一個二分類問題,可以透過 logistic regression 給出:
與原始的 GAN 相同,D 的,目標是最大化:
2. Generator: ,其中,θ 是 G 的引數。G 的輸入時 Query,輸出是與 Query 相關的 documents 的機率分佈,相關性即由這個機率分佈表示。 由 Softmax 函式給出:
G 的目標是最小化:
對 IRGAN 的 training 部分,G 和 D 交叉進行更新。對於 D,可以採用梯度下降更新法;對於 G,由於 G 的輸出是離散 documents 的機率分佈,沒辦法直接採用梯度下降的方法求 G 的梯度,針對這種使用 GAN 訓練離散資料的問題,可以採用強化學習中 Policy Gradient 的方法,reward 由 D 給出。整個訓練過程如下圖演算法所示:
在實驗部分,做了三個不同的 IR 任務:Web Search,Item Recommendation 和 Question Answering,實驗結果表明,IRGAN 模型打敗了多種 strong baseline。開原始碼在:https://github.com/geek-ai/irgan。
阿里巴巴 SIGIR 2017 論文解讀專欄:
- 學界 | 基於機率隱層模型的購物搭配推送:阿里巴巴提出新型使用者偏好預測模型