阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

机器之心發表於2017-08-06

資訊檢索領域的頂級會議 SIGIR 2017 即將開幕。昨日，機器之心報導了阿里被 SIGIR 2017 接收的一篇論文，據瞭解阿里共有 3 篇論文被此大會接收。本文介紹了另一篇由英國倫敦大學、上海交大、阿里等合著的論文。

論文連結：https://arxiv.org/pdf/1705.10513.pdf

Information Retrieval（IR）的典型問題是給出一些查詢詞（query），返回一個排序的文件列表（documents），但 IR 的應用範圍可以擴充套件到文件檢索、網頁搜尋、推薦系統、QA 問答系統和個性化廣告等等。在 IR 的理論或模型領域，有兩種典型的思維方式（如圖所示）：

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

1、生成式 IR 模型：第一種思想認為 documents 和 query 之間有一個隱含的隨機生成（generative）過程，可以表示成：q→d，其中 q 表示 query，d 表示 document，箭頭表示生成的方向，生成模型對 p(d|q) 進行建模。

2、判別式 IR 模型：第二種思想採用了機器學習的方法，將 IR 的問題轉化成一個判別（discriminative）問題；可以表示成：q+d →r，其中+表示 query 和 document 的特徵的組合，r 表示相關性，如果 r 為 0 或 1，則問題是一個分類問題，如果 r 是一個相關分數，則問題是一個迴歸問題；現在著名的方法就是排序學習（Learning to Rank）。排序學習可以分為 Pointwise、Pairwise 和 Listwise 三種模型。

雖然 IR 的生成模型在 Query 和 Document 的特徵建模（例如文字統計）的方面非常成功，但它在利用來自其他的相關性資訊（如連結，點選等等）方面遇到了很大的困難，而這些資訊主要可以在現在網際網路的應用中觀察得到。於此同時，雖然諸如排序學習的 IR 判別模型能夠從大量的標記和未標記的資料中隱式地學習檢索排序函式，但是它目前缺乏從大量未標記資料中獲取有用特徵或收集有用訊號的原則性方法，特別是從文字統計（源自 Document 和 Query 兩方面）或從集合內相關文件的分佈中。

應用 GAN 的思想，IRGAN 引入博弈論中的 minmax 博弈，來將生成式 IR 模型和判別式 IR 模型進行結合。具體來說，我們為兩個模型定義一個共同的檢索函式（例如基於判別的目標函式）。一方面，判別模型旨在透過從標記資料中學習來最大化目標函式，併為生成模型提供訓練的指導性資訊。另一方面，生成模型充當挑戰者，不斷地將判別器的 decision boundary 推向其極限它為判別器迭代地提供最困難的情況，判別器透過對抗的最小化目標函式來重新訓練自身。

下面具體地介紹 IRGAN 的方法，會分別介紹 GAN 中對應的 Discriminator（D）和 Generator（G）。

1. Discriminator：，其中，φ 是 D 的引數。D 的輸入時 Query-Document 對資料(q,d)，而輸出則是這對資料是否匹配。這相當於一個二分類問題，可以透過 logistic regression 給出：

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

與原始的 GAN 相同，D 的，目標是最大化：

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

2. Generator：阿里SIGIR 2017論文：GAN在資訊檢索領域的應用，其中，θ 是 G 的引數。G 的輸入時 Query，輸出是與 Query 相關的 documents 的機率分佈，相關性即由這個機率分佈表示。由 Softmax 函式給出：

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

G 的目標是最小化：

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

對 IRGAN 的 training 部分，G 和 D 交叉進行更新。對於 D，可以採用梯度下降更新法；對於 G，由於 G 的輸出是離散 documents 的機率分佈，沒辦法直接採用梯度下降的方法求 G 的梯度，針對這種使用 GAN 訓練離散資料的問題，可以採用強化學習中 Policy Gradient 的方法，reward 由 D 給出。整個訓練過程如下圖演算法所示：

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

在實驗部分，做了三個不同的 IR 任務：Web Search，Item Recommendation 和 Question Answering，實驗結果表明，IRGAN 模型打敗了多種 strong baseline。開原始碼在：https://github.com/geek-ai/irgan。

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

阿里巴巴 SIGIR 2017 論文解讀專欄：

學界 | 基於機率隱層模型的購物搭配推送：阿里巴巴提出新型使用者偏好預測模型

ChatGPT在資訊保安領域的應用前景
2023-02-10
ChatGPT
ICML 2017大熱論文：Wasserstein GAN | 經典論文復現
2018-10-31
[論文閱讀] RNN 在阿里DIEN中的應用
2020-11-07
RNN阿里
Graph Embedding在人力資本領域的應用
2019-12-16
大模型在程式碼缺陷檢測領域的應用實踐
2023-11-06
大模型
史無前例：Nature Medicine同期8篇論文，聚焦人工智慧在醫學領域的應用
2019-01-29
人工智慧
ClickHouse在大資料領域應用實踐
2022-02-25
大資料
資訊檢索
2024-09-09
雲資料庫在水利領域的應用與探索
2022-04-18
資料庫
阿里雲 Serverless 非同步任務處理系統在資料分析領域的應用
2022-07-28
阿里Server非同步
StarRocks在支付對賬領域的應用
2023-11-30
如何寫/審AI領域的論文
2020-08-19
AI
調製技術在通訊領域的應用與重要性
2024-04-19
Mock技術在測試領域的應用
2020-04-06
Mock
深度學習在醫療領域的應用
2019-02-27
深度學習
NIPS 2018 | 中科院自動化所兩篇入選論文：高清真實影象生成領域及GAN研究在人臉識別領域的進展...
2018-11-01
Sigir2024 ranking相關論文速讀
2024-06-15
GAN 論文大彙總
2019-03-04
調製技術在通訊領域有哪些具體應用？
2024-02-29
低延遲音視訊傳輸技術在直播領域的應用
2018-06-15
【導航】資訊檢索
2018-12-04
影象檢索：資訊檢索評價指標mAP
2018-12-26
指標
人工智慧在材料領域的應用有哪些？
2023-09-25
人工智慧
串聯諧振在各個領域的應用
2024-01-26
Flink 在人工智慧領域的應用實踐
2019-11-28
人工智慧
影像識別（CV）在房地產領域的應用
2019-08-22
區塊鏈技術在金融領域的應用
2019-07-06
區塊鏈
SIGIR2018大會最佳短論文：利用對抗學習的跨域正則化
2019-02-27
跨域
人工智慧在辦公領域的應用及API資料返回
2023-05-05
人工智慧API
nodejs應用領域
2024-09-20
NodeJS
Linux 應用領域
2021-05-21
Linux
多卡聚合通訊裝置在應急行業領域應用解決方案
2021-12-17
行業
什麼是人工智慧領域的 GAN
2023-05-16
人工智慧
知物由學 | 機器學習在資訊保安領域的五大典型應用
2018-06-04
機器學習
區塊鏈在人工智慧領域的前沿應用
2023-12-09
區塊鏈人工智慧
實景三維在園區管理領域的應用
2024-04-04
在銀行領域證件識別儀的應用
2020-02-28
智慧影片分析技術在安防領域的應用
2019-05-27
人工智慧在財富領域的應用與探索
2019-02-23
人工智慧

阿里SIGIR 2017論文：GAN在資訊檢索領域的應用

相關文章