WWW 2020 | 資訊檢索中的對話式問題建議

PaperWeekly發表於2020-09-24
WWW 2020 | 資訊檢索中的對話式問題建議

論文標題:

Leading Conversational Search by Suggesting Useful Questions

論文來源:

WWW 2020

論文連結:

https://www.microsoft.com/en-us/research/uploads/prod/2020/01/webconf-2020-camera-rosset-et-al.pdf

一、簡介

本文由微軟 AI 研究院發表於 WWW 2020,當前對話式搜尋引擎主要存在兩個挑戰:1. 使用者仍然習慣使用查詢詞而並非自然語言進行搜尋;2. 搜尋引擎的能力需要超出僅解決當前查詢的問題。

本文提出了對話式問題建議(Conversatioal question suggestion)這一新的方式,幫助使用者透過更接近於對話式檢索的方式,獲得更好的搜尋體驗。

本文首先提出了更加合理的評價指標 usefulness 替代 relevance,以衡量建議問題的效能;然後提出了基於 BERT 的排序模型和基於 GPT-2 的生成模型,從而針對當前的查詢生成問題,這些模型在離線的 usefulness 評價和線上的 A/B test 中相比於原來 Bing 上線的系統都有顯著提升。

二、從相關性到有用性

考慮到對話式問題推薦不僅僅需要保證推薦的問題和當前的查詢之間具有相關性,同時也希望推薦的問題能和使用者下一階段可能構造的查詢詞相契合,從而使得使用者可以透過該功能獲得更好的體驗,作者定義了五種不符合有用性的問題類別如下,用以標註問題的有用性:
  • Misses Intent:該問題完全和主題不符,或者不是用準確的自然語言進行表達。

  • Too Specific:問題過於具體,導致能覆蓋的人群較少。

  • Prequel:問題的答案是使用者已知的內容。

  • Duplicate with Query:提問和查詢完全重複。

  • Duplicate with Answer:提問可以被當前查詢中所顯示的結果解答。

三、問題推薦框架

本文分別提出了基於排序和基於生成的兩種問題推薦框架。前者基於 BERT 模型,將查詢和問題拼接輸入 BERT 模型完成排序,並透過正負樣本對微調模型;而後者基於 GPT-2 模型,透過將查詢作為模型的輸入直接輸出建議的問題,並使用正樣本的最大對數似然訓練的方法微調模型。兩者的公式表達如下:

WWW 2020 | 資訊檢索中的對話式問題建議

WWW 2020 | 資訊檢索中的對話式問題建議

二者均在以下四個任務上完成訓練:

  • 相關性分類:該任務針對一個具體的“查詢-問題對”判斷它們是否相關,是一個二分類問題。
  • 相關點選率預測:該任務抽取了同一查詢下,兩個具有點選率顯著差異的問題(30%以上),目標是模型能準確預測出點選率更高的問題。
  • 點選預測:該任務針對一個具體的“查詢-問題對”,判斷在顯示該查詢的情況下,該問題是否會被點選,是一個二分類問題。該任務可以被認為是該模型的主任務。
  • 使用者搜尋軌跡模擬:該部分首先抽取出一些真實搜尋引擎中的會話,並藉助下一查詢預測任務,使得我們的模型預測下一查詢中的使用者意圖。具體來說 GPT-2 模型直接根據之前的查詢生成下一查詢,而 BERT 模型則對最可能出現的模型進行排序篩選。

四、實驗

本文首先對比了僅使用當前的線上系統 online,僅使用主任務訓練模型和完整的模型,可以看到僅使用主任務對模型訓練兩種方法均不如當前的線上系統,而完整的模型則大大提升了問題建議的使用者滿意度。

WWW 2020 | 資訊檢索中的對話式問題建議

而透過線上的 A/B test 測試,發現提出的模型在真實的 Bing 搜尋引擎上上線後,問題的點選率上升了 6.4%-8.9%,直接證明了模型的有效性。

WWW 2020 | 資訊檢索中的對話式問題建議

五、結論

本文首先提出了對話式問題建議(Conversatioal question suggestion)這一新的方式,幫助使用者獲得更好的搜尋體驗。本文此後提出了更加合理的評價指標 usefulness 替代 relevance,以衡量建議問題的效能。

然後提出了基於 BERT 的排序模型和基於 GPT-2 的生成模型,從而針對當前的查詢檢索或生成建議的問題,這些模型在離線的 usefulness 評價和線上的 A/B test 中相比於原來 Bing 的線上系統都有顯著提升,證明了模型的有效性。

相關文章