簡單瀏覽一下Sigir2024中與ranking相關的論文。不得不說,自從LLM大熱後,傳統的LTR方向的論文是越來越少了,目前不少都是RAG或類似場景下的工作了,比如查詢改寫、rerank等。
目錄
- The Surprising Effectiveness of Rankers Trained on Expanded Queries
- Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?
- Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset
- Multi-granular Adversarial Attacks against Black-box Neural Ranking Models
The Surprising Effectiveness of Rankers Trained on Expanded Queries
對query進行改寫和兩個模型進行排序。大致流程:
- 基於LLM和相關的文件對query進行改寫,豐富長尾query的資訊。
- 改寫時需要篩選文件中與query相關的句子。
- 針對長尾query,在擴充後的query上訓練一個專門的排序模型;
- 一共有兩個排序模型,分別是針對簡單query的Base Ranker和困難query的Specialized Ranker。以及一個判斷query是否為困難query的模型。計算文件最終的得分時,先計算query為困難query的機率,再用兩個排序模型計算得分並加權作為最終得分。
Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers?
query改寫在檢索階段的作用很明顯,其對互動式編碼器的影響幾何呢?已有的一些工作表明查詢擴充套件對弱一些的排序模型效果更好,對強的則可能有害。如何應用查詢擴充套件才能使其提升排序模型的能力呢,論文給出了兩個關鍵的步驟:
-
高質量的關鍵詞生成。排序更關注準確性(與檢索不同),因此對查詢擴充套件的精確性要求更高,避免擴充套件出現語義漂移的問題。文中的做法:透過LLM生成關鍵詞,並透過self-consistency進行篩選(簡言之:生成多次,取出現頻率高的)。
- 這個確實很重要。排序階段應該儘量保持原始查詢的精確性,避免改寫過於發散。
-
最小化查詢擴充套件的破壞性。如何將生成的關鍵詞插入到查詢中,以最小化插入後的語義漂移。實驗表明,即使直插入3個關鍵詞在原始查詢的末尾也會導致精度退化。文中的做法:每個關鍵詞分別與原查詢拼接後,各自進行排序,再進行融合。
Unbiased Learning to Rank Meets Reality: Lessons from Baidu’s Large-Scale Search Dataset
終於看到一篇傳統的LTR論文,自從LLM大熱,傳統LTR論文是少之又少了啊。(雖然感覺這篇論文有點水)
這篇論文主要基於Baidu-ULTR資料集(由WSDM Cup 2023釋出),透過實驗分析了目前的主流ULTR方法能否真的提升ULTR效果。論文中主要考慮了位置偏差,直接看結論:
- 在該資料集上(後續同理),ULTR方法的提升甚微;
- 語言模型的訓練對ULTR方法敏感;
- ULTR或許能提高點選,但可能與人工標註不一致。
Multi-granular Adversarial Attacks against Black-box Neural Ranking Models
這篇論文主要提出了一種對文件新增不同粒度的擾動,來提高文字排序模型的魯棒性。論文將新增不同粒度的擾動看作一個序列決策的問題,以強化學習的方式構建擾動直至最優的擾動,過程:
- 準備好一個代理排序模型,評估文件的相關性,一個LLM,評估文字的流暢度;
- 多粒度攻擊者由兩部分組成:sub-agent透過代理排序模型識別文件中脆弱的攻擊位置和擾動粒度,meta-agent負責生成實際的擾動。
- 最終的目標:最大化擾動後文字的相關性以及流暢度。
文中比較關鍵的是基於強化學習的多粒度攻擊者,主要是攻擊位置的識別。這個論文有點意思,或許可以用到提升訓練資料質量上。