清華包攬最佳論文+時間檢驗獎,山大獲榮譽提名,SIGIR 2024獎項出爐
机器之心發表於2024-07-18
第 47 屆國際計算機協會資訊檢索大會(ACM SIGIR) 於 2024 年 7 月 14 日至 18 日在美國華盛頓特區舉行。該會議是資訊檢索領域的頂級學術會議。剛剛,大會公佈了最佳論文獎、最佳論文亞軍、最佳論文榮譽提名獎以及時間檢驗獎等獎項。其中,清華大學、中國人民大學高瓴人工智慧學院、小紅書團隊獲得了最佳論文;來自格拉斯哥大學、比薩大學的研究者摘得亞軍;最佳論文榮譽提名獎頒給了山東大學(青島)、萊頓大學、阿姆斯特丹大學的研究者;時間檢驗獎頒給了清華大學、加州大學聖克魯斯分校的研究者。- 論文:Scaling Laws For Dense Retrieval
- 論文作者:方言、Jingtao Zhan、艾清遙、毛佳昕、Weihang Su、Jia Chen、劉奕群
- 機構:清華大學、中國人民大學高瓴人工智慧學院、小紅書
- 論文連結:https://dl.acm.org/doi/abs/10.1145/3626772.3657743
論文簡介:在廣泛的任務中,特別是在語言生成中,研究人員都觀察到了擴充套件定律。研究表明大型語言模型的效能遵循模型和資料集大小的可預測模式,這有助於有效且高效地設計訓練策略,特別是在大規模訓練變得越來越資源密集的情況下。然而,在密集檢索中,擴充套件定律尚未得到充分探索。該研究探索了擴充套件如何影響密集檢索模型的效能。具體來說,研究團隊實現了具有不同數量引數的密集檢索模型,並使用不同數量的註釋資料對其進行訓練。該研究使用對比熵(contrastive entropy )作為評估指標,與離散的排名指標相比,對比熵是連續的,因此可以準確地反映模型的效能。實驗結果表明,密集檢索模型的效能遵循與模型大小以及註釋數量相關的精確冪律擴充套件。此外,該研究還表明,擴充套件定律有助於最佳化訓練過程,例如解決預算約束下的資源分配問題。這項研究極大地有助於理解密集檢索模型的擴充套件效應,為未來的研究提供了有意義的指導。本屆 ACM SIGIR 最佳論文亞軍頒給了論文「 A Reproducibility Study of PLAID 」。論文作者包括來自格拉斯哥大學的 Sean MacAvaney、以及來自比薩大學的 Nicola Tonellotto。論文地址:https://arxiv.org/pdf/2404.14989論文摘要:ColBERTv2 的 PLAID 演算法使用聚類術語表示來檢索和逐步剪枝文件,以獲得最終的文件評分。本文複製並填補了原文中缺失的空白。透過研究 PLAID 引入的引數,研究者發現它的帕累託邊界是由三個引數之間的平衡形成的。超出建議設定的偏差可能會大大增加延遲,而不一定會提高其有效性。基於這一發現,本文將 PLAID 與論文中缺失的一個重要基線進行比較:對詞彙系統進行重新排序。發現在初始 BM25 結果池之上應用 ColBERTv2 作為重新排序器,在低延遲設定中提供了更好的效率 - 有效性權衡。這項工作強調了在評估檢索引擎效率時仔細選擇相關基線的重要性。此次會議的最佳論文榮譽提名獎由山東大學(青島)、萊頓大學、阿姆斯特丹大學的研究者摘得。獲獎論文為「 Generative Retrieval as Multi-Vector Dense Retrieval 」。- 論文作者:吳世廣,魏聞達,張孟奇,陳竹敏,馬軍,任昭春,Maarten de Rijke,任鵬傑
- 論文地址:https://arxiv.org/pdf/2404.00684
論文摘要:本文透過證明生成檢索和多向量密集檢索共享相同的框架來衡量文件查詢的相關性。具體來說,他們研究了生成檢索的注意力層和預測頭,揭示了生成檢索可以理解為多向量密集檢索的一個特例。這兩種方法都透過計算查詢向量和文件向量與對齊矩陣的乘積之和來計算相關性。 然後,研究者探討了生成檢索如何應用此框架,他們採用不同的策略來計算文件 token 向量和對齊矩陣。並進行了實驗來驗證結論,表明這兩種正規化在其對齊矩陣中都表現出術語匹配的共性。本屆 ACM SIGIR 時間檢驗獎頒給了 10 年前在 SIGIR 2014 上發表的關於可解釋推薦的研究,論文為「 Explicit Factor Models for Explainable Recommendation based on Phrase-level Sentiment Analysis 」。- 論文作者:張永鋒、 賴國堃 、 張敏 、 Yi Zhang 、 劉奕群 、馬少平
- 論文連結:https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf
該研究首次定義了「可解釋性推薦」問題,並提出了相應的情感分析方法用於解決這一技術挑戰,在相關領域一直髮揮著引領作用。論文摘要:基於協同過濾(CF)的推薦演算法,例如潛在因子模型(LFM),在預測準確率方面表現良好。然而,潛在特徵使得向使用者解釋推薦結果變得困難。幸運的是,隨著線上使用者評論的不斷增長,可用於訓練推薦系統的資訊不再僅限於數字星級評分或使用者 / 商品特徵。透過從評論中提取使用者對產品各個方面的明確意見,可以更詳細地瞭解使用者關心的方面,這進一步揭示了做出可解釋推薦的可能性。本文提出了 EFM(Explicit Factor Model )來生成可解釋的推薦,同時保持較高的預測準確率。研究者首先透過對使用者評論進行短語級情感分析來提取顯性產品特徵和使用者意見,然後根據使用者興趣的特定產品特徵和學習到的隱藏特徵生成推薦和不推薦。此外,從模型中還生成了關於為什麼推薦或不推薦某件商品的直觀特徵級解釋。在多個真實資料集上的離線實驗結果表明,該研究提出的框架在評分預測和 top-K 推薦任務上均優於競爭基線演算法。線上實驗表明,詳細的解釋使推薦和不推薦對使用者的購買行為更具影響力。ACM SIGIR 青年學者獎旨在表彰在資訊檢索研究、學者社群建設、推進學術公平等方面發揮重要作用的研究人員,要求授予獲得博士學位 7 年以內的青年研究學者。來自清華大學計算機系的助理教授艾清遙、來自中國科學技術大學網路空間安全學院、大資料學院教授、博士生導師王翔獲得了 SIGIR 2024 青年學者獎。艾清遙是清華大學計算機系助理教授,主要研究領域集中在資訊檢索、機器學習以及自然語言處理研究方面。重點研究方向為智慧資訊檢索系統的研究與設計,包括資訊表示學習、排序最佳化理論、大語言模型在網際網路搜推和智慧司法上的應用等。王翔是中國科學技術大學網路空間安全學院、大資料學院教授、博士生導師。王翔教授的研究興趣包括資訊檢索、資料探勘以及可信、可解釋人工智慧,特別是推薦系統、圖學習和社交媒體分析。