中科院計算所、中國科學院大學、中關村實驗室合作的一篇論文拿到了 EMNLP 2024 最佳論文獎。
讓國內研究者更加激動的是,EMNLP 2025 將在中國蘇州舉辦:
作者:Simran Khanuja, Sathyanarayanan Ramamoorthy,Yueqi Song,Graham Neubig 機構:CMU 連結:https://aclanthology.org/2024.emnlp-main.573.pdf 獲獎理由:介紹了「transcreation」的概念,即生成文化上合理的影像,並提供了一個基準資料集來評估 LLM 在這項任務中的能力,開闢了一個具有重大現實意義的新研究領域。
作者:William Chen, Wangyou Zhang, Yifan Peng, Xinjian Li, Jinchuan Tian,Jiatong Shi, Xuankai Chang, Soumi Maiti, Karen Livescu, Shinii Watanabe 機構:CMU、上海交大、豐田工業大學(芝加哥) 連結:https://aclanthology.org/2024.emnlp-main.570.pdf 獲獎理由:釋出了一個涵蓋 4000 多種語言、超過 100 萬小時語音的資料集,以及一個在資料基礎上訓練的多語言模型。
作者:Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf 機構:以色列理工學院、特拉維夫大學 連結:https://aclanthology.org/2024.emnlp-main.142.pdf 獲獎理由:透過將梯度投射到詞彙空間來實現可解釋性,為模型編輯引入了一種優雅而直觀的方法。
作者:Weichao Zhang, Ruging Zhang, Jiafeng Guo, Maarten de Rijke, Yixing Fan,Xueqi Cheng 機構:中科院計算所、中國科學院大學、中關村實驗室、阿姆斯特丹大學 連結:https://aclanthology.org/2024.emnlp-main.300.pdf 獲獎理由:提出了一種用於預訓練資料黑盒檢測的新資料集和方法
作者:Mustafa Omer Gul, Yoav Artzi 機構:康奈爾大學 連結:https://aclanthology.org/2024.emnlp-main.721.pdf 獲獎理由:探索語言理解與語言生成的結合,以改善雙人參考遊戲中的人際互動。
論文 1:Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models 作者:Sander Land、Max Bartolo 機構:Cohere 連結:https://www.alphaxiv.org/abs/2405.05417v1 獲獎理由:深入探討了多個開源 LLM 中未充分訓練的 token 所引發的問題。
論文 2:Learning to Retrieve lteratively for in-Context Learning 作者:Yunmo Chen, Tongfei Chen, Harsh Jhamtani, Patrick Xia, Richard Shin, Jason Eisner, Benjamin Van Durme 機構:微軟 連結:https://arxiv.org/abs/2406.14739 獲獎理由:提出了一種創造性的方法,將 in-context leaming 示例的選擇建模為馬爾可夫決策過程。
論文 3:Measuring Psychological Depth in Language Models 作者:Fabrice Y Harel-Canada, Hanyu Zhou, Sreya Muppalla, Zeynep Senahan Yildiz, Miryung Kim, Amit Sahai, Nanyun Peng 機構:加州大學洛杉磯分校 連結:https://arxiv.org/abs/2406.12680 獲獎理由:提供了一套以敘事理論為基礎的有用指標,用於評估 LLM 的敘事寫作。
論文 4:Do LLMs Plan Like Human Writers? Comparing Journalist Coverage of Press Releases with LLMs 作者:Alexander Spangher, Nanyun Peng, Sebastian Gehrmann, Mark Dredze 機構:南加利福尼亞大學、加州大學洛杉磯分校、彭博社 連結:https://openreview.net/forum?id=E3VS45jxPR 獲獎理由:提出了一種透過將 LLM 與新聞記者進行比較來評估 LLM 的方法和資料集
論文 5:Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability inText-to-mage Generation 作者:Raphael Tang, Crvstina Zhang, Lixinyu Xu, Yao Lu, Wenvan Li, Pontus Stenetor, Jimmy Lin, Ferhan Ture 機構:Comcast AI Technologies、滑鐵盧大學、倫敦大學學院、哥本哈根大學 連結:https://arxiv.org/pdf/2406.08482 獲獎理由:為文字到影像的生成提出了一種經人工校準的可變性測量方法,並對實際影響進行了全面的學科間分析和討論。
論文 6:Finding Blind Spots in Evaluator LLMs with Interpretable Checklists 作者:Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Sshubam Verma, Mitesh M Khapra 機構:Nilekani Centre at AI4Bharat、印度理工學院 連結:https://arxiv.org/abs/2406.13439 獲獎理由:關於使用 LLM 作為評估者的研究,資訊豐富,發人深省。
論文 7:GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory 作者:Wei Fan, Haoran Li, Zheye Deng, Weiqi Wang, Yanggiu Song 機構:香港科技大學電腦科學與工程系 連結:https://arxiv.org/html/2406.11149v1 獲獎理由:提出了一個框架,該框架利用隱私場景公正理論(Contextual Integrity Theory) 將大型語言模型與隱私法對齊,增強了它們在各種上下文中檢測隱私風險的能力。
論文 8:Verification and Refinement of Natural Language Explanations through LLM-Symbolic Theorem Proving 作者:Xin Quan, Marco Valentino, Louise A. Dennis, Andre Freitas 機構:曼徹斯特大學、瑞士 Idiap 研究所 連結:https://aclanthology.org/2024.emnlp-main.172.pdf 獲獎理由:提出了一個整合 LLM 和定理證明的神經符號框架,以提高 NLl 任務的自然語言解釋的質量和邏輯有效性。
論文 9:The Zeno's Paradox of'Low-Resource’ Languages 作者:Helina Hailu Niaatu, Atnafu Lambebo Tonia, Benjamin Rosman, Thamar Solorio, Monoit Choudhury 機構:MBZUAI 等 連結:https://arxiv.org/pdf/2410.20817 獲獎理由:仔細研究了「低資源語言意味著什麼」這個問題。
論文 10:When is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages 作者:Tvler A.Chana. Catherine Arnett. Zhuowen Tu, Ben Bergen 機構:加州大學聖迭戈分校 連結:https://arxiv.org/pdf/2311.09205 獲獎理由:對影響 LLM 跨語言預訓練和效能的因素進行了廣泛而嚴格的實證調查。
論文 11:Language Models Learn Rare Phenomena from Less Rare Phenomena: The Case of the Missing AANNS 作者:Kanishka Misra, Kyle Mahowald 機構:得克薩斯大學奧斯汀分校 連結:https://arxiv.org/pdf/2403.19827 獲獎理由:介紹了一個有意思的實驗設定,演示了 LLM 如何泛化以學習罕見現象。
論文 12:Fool Me Once? Contrasting Textual and Visual Explanations in a Clinical Decision-Support Setting 作者:Maxime Guillaume Kayser, Bayar Menzat, Cornelius Emde, Bogdan Alexandru Bercean, Alex Novak, Abdalá Trinidad Espinosa Morgado, Bartlomiej Papiez, Susanne Gaube, Thomas Lukasiewicz, Oana-Maria Camburu 機構:牛津大學、維也納技術大學等 連結:https://arxiv.org/pdf/2410.12284 獲獎理由:評估了臨床人體研究中不同型別解釋的有用性。
論文 13:Threshold-driven Pruning with Segmented Maximum Term Weights for Approximate Cluster-based Sparse Retrieval 作者:Yifan Qiao, Parker Carlson, Shanxiu He ,Yingrui Yang, Tao Yang 機構:加州大學聖巴巴拉分校 連結:https://sites.cs.ucsb.edu/~tyang/papers/2024EMNLP-CameraReady.pdf 獲獎理由:提出了一個 probablistically-rank-safe 的動態 pruning 方案,用於快速的基於聚類的稀疏檢索,這個方案對於當前檢索系統和 RAG 管道來說非常重要。
論文 14:Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing 作者:Fangkai Jiao, Chengwei Qin, Zhengyuan Liu, Nancy F. Chen, Shafig Joty 機構:新加坡南洋理工大學、新加坡資訊通訊研究院、Salesforce 研究院 連結:https://arxiv.org/html/2402.00658v2 獲獎理由:透過對合成資料提供中間基本原理監督,並在 trajectory 上應用 DPO,增強了 LLM 的推理能力。
論文 15:Are Large Language Models Capable of Generating Human-Level Narratives? 作者:Yufei Tian, Tenghao Huang,Miri Liu, Derek Jiang, Alexander Spangher, Muhao Chen, Jonathan May, Nanyun Peng 機構:加州大學洛杉磯分校、南加利福尼亞大學、加州大學戴維斯分校 連結:https://arxiv.org/pdf/2407.13248 獲獎理由:引入了一個框架,在話語(discourse)層面評估 LLM 生成的敘述。
論文 16:Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge 作者:Jiahuan Li, Yiging Cao, Shuiian Huang, Jiajun Chen 機構:南京大學計算機軟體新技術國家重點實驗室 連結:https://arxiv.org/pdf/2410.04784 獲獎理由:研究了 LLM 在訓練資料資訊相互衝突的情況下如何學習。
論文 17:OATH-Frames: Characterizing Online Attitudes Towards Homelessness with LLM Assistants 作者:Jaspreet Ranjit, Brihi Joshi, Rebecca Dorn, Laura Petry, Olga Koumoundouros, Jayne Bottarini, Peichen Liu, Eric Rice, Swabha Swayamdipta 機構:南加利福尼亞大學電腦科學系、 連結:https://aclanthology.org/2024.emnlp-main.724.pdf 獲獎理由:在領域專家和 LLM 助理的幫助下,對公眾對無家可歸者的態度進行大規模分析。
論文 18:SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories 作者:Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot 機構:艾倫人工智慧研究所、華盛頓大學 連結:https://arxiv.org/pdf/2409.07440 獲獎理由:創新的基準測試,用於評估基於大型語言模型(LLM)的智慧體能否復現來自研究庫的結果。
論文 19:Towards Cross-Cultural Mlachine Translation with Retrieval-Augmented Generation from Multilingual Knowledge Graphs 作者:Simone Conia, Daniel Lee, Min Li, Umar Faroog Minhas, Saloni Potdar, Yunyao Li 機構:羅馬大學、Adobe、蘋果 連結:https://arxiv.org/pdf/2410.14057 獲獎理由:解決了翻譯與文化相關的命名實體的挑戰,挑戰了以前關於如何翻譯命名實體的觀點。
論文 20:Which questions should l answer? Salience Prediction of Inquisitive Questions 作者:Yating Wu, Ritika Rajesh Mangla, Alex Dimakis, Greg Durrett, Junyi Jessy Li 機構:德克薩斯大學奧斯汀分校、 BespokeLabs.ai 連結:https://arxiv.org/abs/2404.10917 獲獎理由:提出了一種預測語言敏感問題突出程度的方法和資料集,為語言社群內關於人類如何處理資訊和資訊內容的話語結構的持續辯論提供資訊。