這三家國內機構合作成果,斬獲EMNLP 2024最佳論文獎,主辦方:明年蘇州見!

机器之心發表於2024-11-15
中科院計算所、中國科學院大學、中關村實驗室合作的一篇論文拿到了 EMNLP 2024 最佳論文獎。

剛剛,EMNLP 2024 論文獎項結果出爐了!

EMNLP 2024 會議近日在美國邁阿密盛大開幕,現場熱鬧非凡。
圖片
本屆會議收到了前所未有的 6395 篇論文,其中有效投稿 6105 篇,比上一年足足增加了 1196 篇。經過了嚴格的審稿過程,主辦方保持了與往年差不多的論文接收率,最終有 1271 篇主會議論文被接收。
圖片

讓國內研究者更加激動的是,EMNLP 2025 將在中國蘇州舉辦:

圖片

伴隨著本屆會議的進行,最佳論文、傑出論文等獎項陸續出爐。以下是獲獎論文資訊:

最佳論文

論文 1:《An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance》
圖片
  • 作者:Simran Khanuja, Sathyanarayanan Ramamoorthy,Yueqi Song,Graham Neubig
  • 機構:CMU
  • 連結:https://aclanthology.org/2024.emnlp-main.573.pdf
  • 獲獎理由:介紹了「transcreation」的概念,即生成文化上合理的影像,並提供了一個基準資料集來評估 LLM 在這項任務中的能力,開闢了一個具有重大現實意義的新研究領域。

摘要:隨著多媒體內容的興起,人類翻譯人員越來越注重文化適應,不僅是文字,還包括影像等其他方式。雖然一些應用可以從中受益,但機器翻譯系統仍然侷限於處理語音和文字中的語言。這項工作引入了翻譯影像的新任務,使其具有文化相關性。首先,本文建立了三個由最先進的生成模型組成的 pipeline 來完成這項任務。接下來,研究者建立了一個由兩部分組成的評估資料集,(i) 概念:由 600 幅跨文化連貫的影像組成,每幅影像只關注一個概念;(ii) 應用:由 100 幅從真實世界應用中收集的影像組成。本文對翻譯影像進行了多方面的人工評估,以評估文化相關性和意義儲存情況。結果發現到目前為止,影像編輯模型未能完成這項任務,但可以透過在迴圈中利用 LLM 和檢索器來加以改進。在較簡單的概念資料集中,最佳 pipeline 只能為某些國家翻譯 5% 的影像,而在應用資料集中,對某些國家則無法成功翻譯,凸顯了這項任務的挑戰性。
圖片
論文 2:《Towards Robust Speech Representation Learning for Thousands of Languages》
圖片
  • 作者:William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian,Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinii Watanabe
  • 機構:CMU、上海交大、豐田工業大學(芝加哥)
  • 連結:https://aclanthology.org/2024.emnlp-main.570.pdf
  • 獲獎理由:釋出了一個涵蓋 4000 多種語言、超過 100 萬小時語音的資料集,以及一個在資料基礎上訓練的多語言模型。

摘要:自監督學習(SSL)透過減少對標註資料的需求,幫助語音技術擴充套件到更多的語言。然而,目前的模型還遠遠不能支援全球 7000 多種語言。本文提出了通用語音跨語言編碼器 XEUS,該編碼器在 4057 種語言的 100 多萬小時資料基礎上進行訓練,將 SSL 模型的語言覆蓋範圍擴大了 4 倍。研究者將現有公開語料庫中的 100 萬小時語音與新建立的來自 4057 種語言的 7400 多小時語料庫結合起來公開發布。為了處理多語言語音資料的不同條件,他們還採用了一種新穎的去混響目標來增強典型的 SSL 掩蔽預測方法,從而提高了魯棒性。隨後他們在多個基準上對 XEUS 進行了評估,結果表明它在各種任務中的表現始終優於 SOTA SSL 模型,或取得了與之相當的結果。XEUS 在 ML-SUPERB 基準上創造了新的 SOTA:儘管引數或預訓練資料較少,但它的效能分別比 MMS 1B 和 w2v-BERT 2.0 v2 高出 0.8% 和 4.4%。
圖片
論文 3:《Backward Lens: Projecting Language Model Gradients into the Vocabulary Space》
圖片
  • 作者:Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf
  • 機構:以色列理工學院、特拉維夫大學
  • 連結:https://aclanthology.org/2024.emnlp-main.142.pdf
  • 獲獎理由:透過將梯度投射到詞彙空間來實現可解釋性,為模型編輯引入了一種優雅而直觀的方法。

摘要:瞭解基於 Transformer 的語言模型(LM)如何學習和呼叫資訊是深度學習領域的一個關鍵目標。最近的可解釋性方法將前向傳遞獲得的權重和隱藏狀態投射到模型的詞彙表中,有助於揭示資訊如何在 LM 中流動。本文將這一方法擴充套件到 LM 的後向傳遞和梯度。研究者首先證明,梯度矩陣可以被視為前向傳遞和後向傳遞輸入的低秩線性組合。然後,研究者開發了將這些梯度投射到詞彙專案中的方法,並探索了新資訊如何儲存在 LM 神經元中的機制。

論文 4:《Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method》
圖片
  • 作者:Weichao Zhang, Ruging Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan,Xueqi Cheng
  • 機構:中科院計算所、中國科學院大學、中關村實驗室、阿姆斯特丹大學
  • 連結:https://aclanthology.org/2024.emnlp-main.300.pdf
  • 獲獎理由:提出了一種用於預訓練資料黑盒檢測的新資料集和方法

摘要:隨著大型語言模型(LLM)訓練語料庫規模的擴大,模型開發者越來越不願意公開其資料的詳細資訊。這種缺乏透明度的情況給科學評估和道德部署帶來了挑戰。最近,人們開始探索預訓練資料檢測方法,這類方法會透過黑盒訪問推斷給定文字是否是 LLM 訓練資料的一部分。Min-K% Prob 方法已經取得了最先進的成果,該方法假定非訓練樣本往往包含一些 token 機率較低的離群詞。然而,這種方法的有效性可能有限,因為它往往會誤分那些包含許多由 LLM 預測為高機率的常用詞的非訓練文字。本文受散度隨機性的啟發,引入了一種基於散度的校準方法,來校準用於預訓練資料檢測的 token 機率。研究者計算了 token 機率分佈和 token 頻率分佈之間的交叉熵(即散度),從而得出檢測得分。此外還開發了一箇中文基準 —PatentMIA,以評估 LLMs 檢測方法在中文文字上的效能。在英文基準和 PatentMIA 上的實驗結果表明,本文提出的方法明顯優於現有方法。
圖片
論文 5:《CoGen: Learning from Feedback with Coupled Comprehension and Generation》
圖片
  • 作者:Mustafa Omer Gul, Yoav Artzi
  • 機構:康奈爾大學
  • 連結:https://aclanthology.org/2024.emnlp-main.721.pdf
  • 獲獎理由:探索語言理解與語言生成的結合,以改善雙人參考遊戲中的人際互動。

摘要:同時具備語言理解和生成能力的系統可以從兩者之間的緊密聯絡中獲益。本文將理解和生成功能結合在一起,重點關注從與使用者的互動中不斷學習,提出了將這兩種學習和推理能力緊密結合的技術。研究者將研究置於雙人參考遊戲中,並在與人類使用者的數千次互動中部署各種模型,同時從互動反饋訊號中學習。結果發現,隨著時間的推移,效能有了顯著提高,與無耦合系統相比,理解力生成耦合的絕對效能提高了 26%,準確率提高了 17%。本文分析還表明,耦合對系統語言的質量產生了重大影響,使其明顯更像人類語言。
圖片
傑出論文
圖片
  • 論文 1:Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models
  • 作者:Sander Land、Max Bartolo
  • 機構:Cohere
  • 連結:https://www.alphaxiv.org/abs/2405.05417v1
  • 獲獎理由:深入探討了多個開源 LLM 中未充分訓練的 token 所引發的問題。

  • 論文 2:Learning to Retrieve lteratively for in-Context Learning
  • 作者:Yunmo Chen, Tongfei Chen, Harsh Jhamtani, Patrick Xia, Richard Shin, Jason Eisner, Benjamin Van Durme
  • 機構:微軟
  • 連結:https://arxiv.org/abs/2406.14739
  • 獲獎理由:提出了一種創造性的方法,將 in-context leaming 示例的選擇建模為馬爾可夫決策過程。

  • 論文 3:Measuring Psychological Depth in Language Models
  • 作者:Fabrice Y Harel-Canada, Hanyu Zhou, Sreya Muppalla, Zeynep Senahan Yildiz, Miryung Kim, Amit Sahai, Nanyun Peng
  • 機構:加州大學洛杉磯分校
  • 連結:https://arxiv.org/abs/2406.12680
  • 獲獎理由:提供了一套以敘事理論為基礎的有用指標,用於評估 LLM 的敘事寫作。

  • 論文 4:Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs
  • 作者:Alexander Spangher, Nanyun Peng, Sebastian Gehrmann, Mark Dredze
  • 機構:南加利福尼亞大學、加州大學洛杉磯分校、彭博社
  • 連結:https://openreview.net/forum?id=E3VS45jxPR
  • 獲獎理由:提出了一種透過將 LLM 與新聞記者進行比較來評估 LLM 的方法和資料集

  • 論文 5:Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability inText-to-mage Generation
  • 作者:Raphael Tang, Crvstina Zhang, Lixinyu Xu, Yao Lu, Wenvan Li, Pontus Stenetor, Jimmy Lin, Ferhan Ture
  • 機構:Comcast AI Technologies、滑鐵盧大學、倫敦大學學院、哥本哈根大學
  • 連結:https://arxiv.org/pdf/2406.08482
  • 獲獎理由:為文字到影像的生成提出了一種經人工校準的可變性測量方法,並對實際影響進行了全面的學科間分析和討論。

  • 論文 6:Finding Blind Spots in Evaluator LLMs with Interpretable Checklists
  • 作者:Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Sshubam Verma, Mitesh M Khapra
  • 機構:Nilekani Centre at AI4Bharat、印度理工學院
  • 連結:https://arxiv.org/abs/2406.13439
  • 獲獎理由:關於使用 LLM 作為評估者的研究,資訊豐富,發人深省。

  • 論文 7:GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory
  • 作者:Wei Fan, Haoran Li, Zheye Deng, Weiqi Wang, Yanggiu Song
  • 機構:香港科技大學電腦科學與工程系
  • 連結:https://arxiv.org/html/2406.11149v1
  • 獲獎理由:提出了一個框架,該框架利用隱私場景公正理論(Contextual Integrity Theory) 將大型語言模型與隱私法對齊,增強了它們在各種上下文中檢測隱私風險的能力。

  • 論文 8:Verification and Refinement of Natural Language Explanations through LLM-Symbolic Theorem Proving
  • 作者:Xin Quan, Marco Valentino, Louise A. Dennis, Andre Freitas
  • 機構:曼徹斯特大學、瑞士 Idiap 研究所
  • 連結:https://aclanthology.org/2024.emnlp-main.172.pdf
  • 獲獎理由:提出了一個整合 LLM 和定理證明的神經符號框架,以提高 NLl 任務的自然語言解釋的質量和邏輯有效性。

  • 論文 9:The Zeno's Paradox of'Low-Resource’ Languages
  • 作者:Helina Hailu Niaatu, Atnafu Lambebo Tonia, Benjamin Rosman, Thamar Solorio, Monoit Choudhury
  • 機構:MBZUAI 等
  • 連結:https://arxiv.org/pdf/2410.20817
  • 獲獎理由:仔細研究了「低資源語言意味著什麼」這個問題。

  • 論文 10:When is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages
  • 作者:Tvler A.Chana. Catherine Arnett. Zhuowen Tu, Ben Bergen
  • 機構:加州大學聖迭戈分校
  • 連結:https://arxiv.org/pdf/2311.09205
  • 獲獎理由:對影響 LLM 跨語言預訓練和效能的因素進行了廣泛而嚴格的實證調查。

  • 論文 11:Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNS
  • 作者:Kanishka Misra, Kyle Mahowald
  • 機構:得克薩斯大學奧斯汀分校
  • 連結:https://arxiv.org/pdf/2403.19827
  • 獲獎理由:介紹了一個有意思的實驗設定,演示了 LLM 如何泛化以學習罕見現象。

  • 論文 12:Fool Me Once? Contrasting Textual and Visual Explanations in a Clinical Decision-Support Setting
  • 作者:Maxime Guillaume Kayser, Bayar Menzat, Cornelius Emde, Bogdan Alexandru Bercean, Alex Novak, Abdalá Trinidad Espinosa Morgado, Bartlomiej Papiez, Susanne Gaube, Thomas Lukasiewicz, Oana-Maria Camburu
  • 機構:牛津大學、維也納技術大學等
  • 連結:https://arxiv.org/pdf/2410.12284
  • 獲獎理由:評估了臨床人體研究中不同型別解釋的有用性。

  • 論文 13:Threshold-driven Pruning with Segmented Maximum Term Weights for Approximate Cluster-based Sparse Retrieval
  • 作者:Yifan Qiao, Parker Carlson, Shanxiu He ,Yingrui Yang, Tao Yang
  • 機構:加州大學聖巴巴拉分校
  • 連結:https://sites.cs.ucsb.edu/~tyang/papers/2024EMNLP-CameraReady.pdf
  • 獲獎理由:提出了一個 probablistically-rank-safe 的動態 pruning 方案,用於快速的基於聚類的稀疏檢索,這個方案對於當前檢索系統和 RAG 管道來說非常重要。

  • 論文 14:Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing
  • 作者:Fangkai Jiao, Chengwei Qin, Zhengyuan Liu, Nancy F. Chen, Shafig Joty
  • 機構:新加坡南洋理工大學、新加坡資訊通訊研究院、Salesforce 研究院
  • 連結:https://arxiv.org/html/2402.00658v2
  • 獲獎理由:透過對合成資料提供中間基本原理監督,並在 trajectory 上應用 DPO,增強了 LLM 的推理能力。

  • 論文 15:Are Large Language Models Capable of Generating Human-Level Narratives?
  • 作者:Yufei Tian, Tenghao Huang,Miri Liu, Derek Jiang, Alexander Spangher, Muhao Chen, Jonathan May, Nanyun Peng
  • 機構:加州大學洛杉磯分校、南加利福尼亞大學、加州大學戴維斯分校
  • 連結:https://arxiv.org/pdf/2407.13248
  • 獲獎理由:引入了一個框架,在話語(discourse)層面評估 LLM 生成的敘述。

  • 論文 16:Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge
  • 作者:Jiahuan Li, Yiging Cao, Shuiian Huang, Jiajun Chen
  • 機構:南京大學計算機軟體新技術國家重點實驗室
  • 連結:https://arxiv.org/pdf/2410.04784
  • 獲獎理由:研究了 LLM 在訓練資料資訊相互衝突的情況下如何學習。

  • 論文 17:OATH-Frames: Characterizing Online Attitudes Towards Homelessness with LLM Assistants
  • 作者:Jaspreet Ranjit, Brihi Joshi, Rebecca Dorn, Laura Petry, Olga Koumoundouros, Jayne Bottarini, Peichen Liu, Eric Rice, Swabha Swayamdipta
  • 機構:南加利福尼亞大學電腦科學系、
  • 連結:https://aclanthology.org/2024.emnlp-main.724.pdf
  • 獲獎理由:在領域專家和 LLM 助理的幫助下,對公眾對無家可歸者的態度進行大規模分析。

  • 論文 18:SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories
  • 作者:Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot
  • 機構:艾倫人工智慧研究所、華盛頓大學
  • 連結:https://arxiv.org/pdf/2409.07440
  • 獲獎理由:創新的基準測試,用於評估基於大型語言模型(LLM)的智慧體能否復現來自研究庫的結果。

  • 論文 19:Towards Cross-Cultural Mlachine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs
  • 作者:Simone Conia, Daniel Lee, Min Li, Umar Faroog Minhas, Saloni Potdar, Yunyao Li
  • 機構:羅馬大學、Adobe、蘋果
  • 連結:https://arxiv.org/pdf/2410.14057
  • 獲獎理由:解決了翻譯與文化相關的命名實體的挑戰,挑戰了以前關於如何翻譯命名實體的觀點。

  • 論文 20:Which questions should l answer? Salience Prediction of Inquisitive Questions
  • 作者:Yating Wu, Ritika Rajesh Mangla, Alex Dimakis, Greg Durrett, Junyi Jessy Li
  • 機構:德克薩斯大學奧斯汀分校、 BespokeLabs.ai
  • 連結:https://arxiv.org/abs/2404.10917
  • 獲獎理由:提出了一種預測語言敏感問題突出程度的方法和資料集,為語言社群內關於人類如何處理資訊和資訊內容的話語結構的持續辯論提供資訊。

參考連結:
https://x.com/emnlpmeeting/status/1857173122598010918

相關文章