ACL 2024獎項公佈:華科大破譯甲骨文最佳論文之一、GloVe時間檢驗獎

机器之心發表於2024-08-15
本屆 ACL 大會,投稿者「收穫滿滿」。

為期六天的 ACL 2024 正在泰國曼谷舉辦。

圖片

ACL 是計算語言學自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL 在 NLP 領域的學術影響力都位列第一,它也是 CCF-A 類推薦會議。

今年的 ACL 大會已是第 62 屆,接收了 400 餘篇 NLP 領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎 7 篇(兩篇未公開)、最佳主題論文獎 1 篇、傑出論文獎 35 篇。

大會還評出了資源論文獎(Resource Award)3 篇、社會影響力獎(Social Impact Award)3 篇、時間檢驗獎 2 篇。

此外,本屆大會終身成就獎頒給了紐約大學電腦科學系教授 Ralph Grishman。

以下是具體的獲獎資訊。

最佳論文

圖片

論文 1:Mission: Impossible Language Models

  • 作者:Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
  • 機構:史丹佛大學、加州大學爾灣分校、得克薩斯大學奧斯汀分校
  • 論文連結:https://arxiv.org/abs/2401.06416

論文簡介:喬姆斯基等人認為:對於人類可能或不可能學會的語言,大型語言模型(LLM)的學習能力是一樣的。然而,幾乎沒有公開的實驗證據來支援這種說法。

該研究開發了一組具有不同複雜性的合成語言,每一種都是透過使用不自然的詞序和語法規則系統地改變英語資料而設計的,旨在合成人類不可能學會的語言。

該研究進行了廣泛的評估實驗,以評估 GPT-2 小模型學習這些「不可能語言」的能力,並且在整個訓練的不同階段進行這些評估,以比較每種語言的學習過程。該研究的核心發現是:與英語相比,GPT-2 很難學習「不可能語言」,這挑戰了喬姆斯基等人的主張。

更重要的是,該研究希望其方法能夠開闢一條富有成效的探究路線,讓不同的 LLM 架構在各種「不可能語言」上進行測試,以瞭解如何將 LLM 用作認知和型別學調查工具。

圖片

論文 2:Why are Sensitive Functions Hard for Transformers?

  • 作者:Michael Hahn, Mark Rofin
  • 機構:薩爾大學
  • 論文連結:https://arxiv.org/abs/2402.09963

論文簡介:實驗研究已經確定了 transformer 的一系列可學習性偏置和侷限性,例如學習計算 PARITY 等簡單形式語言的持續困難,以及對低度(low-degree)函式的偏置。然而,理論理解仍然有限,現有的表達理論要麼高估要麼低估現實的學習能力。

該研究證明,在 transformer 架構下,損失函式景觀(loss landscape)受到輸入空間靈敏度的限制:輸出對輸入串的許多部分敏感的 transformer 位於引數空間中的孤立點,導致泛化中的低靈敏度偏置。

該研究從理論上和實驗上表明,該理論統一了關於 transformer 學習能力和偏置的廣泛實驗觀察,例如它們對低靈敏度和低度的泛化偏置,以及奇偶校驗長度泛化的困難。這表明,瞭解 transformer 的歸納偏置(inductive biases)不僅需要研究其原則上的表達能力,還需要研究其損失函式景觀。

圖片

論文 3:Deciphering Oracle Bone Language with Diffusion Models

  • 作者:Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han 等
  • 機構:華中科技大學、阿德萊德大學、安陽師範學院、華南理工大學
  • 論文連結:https://arxiv.org/pdf/2406.00684

論文簡介:甲骨文(Oracle Bone Script,OBS)起源於約 3000 年前的中國商朝,是語言史上的基石,早於許多既定的書寫系統。儘管發現了數千份銘文,但仍有大量的甲骨文未被破譯,從而為這一古老的語言蒙上了一層神秘的面紗。現代 AI 技術的出現為甲骨文破譯開闢了新的領域,對嚴重依賴大型文字語料庫的傳統 NLP 方法提出了挑戰。

本文介紹了一種採用影像生成技術的新方法,開發出了針對甲骨文破譯最佳化的擴散模型 Oracle Bone Script Decipher (OBSD)。利用條件擴散策略,OBSD 為甲骨文破譯生成了重要的線索,併為 古代語言的 AI 輔助分析開闢了新方向。為了驗證有效性,研究者在甲骨文資料集上進行了廣泛的實驗,定量結果證明了 OBSD 的有效性。

圖片

論文 4:Causal Estimation of Memorisation Profiles

  • 作者:Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
  • 機構:劍橋大學、蘇黎世聯邦理工學院
  • 論文連結:https://arxiv.org/pdf/2406.04327

論文簡介:理解語言模型中的記憶具有實際和社會意義,例如研究模型的訓練動態或防止版權侵權。以往的研究將記憶定義為「使用例項進行的訓練」對「模型預測該例項的能力」的因果關係。這個定義依賴於一個反事實:觀察如果模型沒有看到該例項會發生什麼的能力。現有的方法難以提供對這種反事實的計算效率和準確性估計。此外,這些方法通常估計模型架構的記憶,而不是特定模型例項的記憶。

本文填補了一個重要空白,提出了一種基於計量經濟學的差異 - 差異設計來估計記憶的全新、原則性和高效方法。透過這種方法,研究者在整個訓練過程中僅觀察模型在一小部分例項上的行為來描述模型的記憶概況,即其在訓練過程中的記憶趨勢。在使用 Pythia 模型套件進行實驗時,他們發現記憶 (i) 在較大模型中更強大、更持久,(ii) 由資料順序和學習率決定,以及 (iii) 在不同模型大小之間具有穩定的趨勢,因此較大模型中的記憶可以從較小模型中預測出來。

圖片

論文 5:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

  • 作者:Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko 等
  • 機構:Cohere、布朗大學等
  • 論文連結:https://arxiv.org/pdf/2402.07827

論文簡介:大型語言模型 (LLM) 的最新突破集中在少數資料豐富的語言上。如何才能將突破的途徑擴充套件到其他語言之外?該研究引入了 Aya,這是一種大規模多語言生成語言模型,它遵循 101 種語言指令,其中超過 50% 的語言被視為資源較少。Aya 在大多數任務上的表現都優於 mT0 和 BLOOMZ,同時覆蓋的語言數量是 mT0 和 BLOOMZ 的兩倍。

此外,該研究還引入了廣泛的新評估套件,將多語言評估的最新水平擴充套件到 99 種語言。最後,該研究對最佳微調混合組成、資料剪枝以及模型的毒性、偏差和安全性進行了詳細調查。

圖片

論文 6:Semisupervised Neural Proto-Language Reconstruction

  • 作者:Liang Lu 、 Peirong Xie 、 David R. Mortensen
  • 機構:CMU、南加州大學
  • 論文連結:https://arxiv.org/pdf/2406.05930

獲獎理由:這項開創性的研究旨在半自動化歷史語言學中的原型語言重構任務,提出了一種新的半監督架構。透過在「母語 - 原型」重構中引入「原型 - 母語」反射過程,這種方法優於之前的監督方法。這篇論文很好地展示了現代計算模型(如神經編碼 - 解碼器)如何為語言學作出的貢獻。

圖片

論文 7:Natural Language Satisfiability: Exploring the Problem Distribution and Evaluating Transformer-based Language Models(未公開)

  • 作者:Tharindu Madusanka、Ian Pratt-Hartmann、Riza Batista-Navarro

獲獎理由:該論文清晰地描述了一個用於邏輯推理的合成評估資料集。這是對大量推理資料集的一種良好補充,因為這些資料集中並不明確測量哪些能力。從理論上講,確實有理由預期某些子集比其他子集更難,而這些預期在論文中得到了驗證。在每個類別中,作者都特別注意抽取那些真正具有挑戰性的案例。

時間檢驗獎

ACL 時間檢驗獎獎勵的是對自然語言處理和計算語言學領域產生長期影響的榮譽論文,分為 10 年前(2014 年)和 25 年前(1999 年)兩個獎項,每年最多頒發兩篇論文。

圖片

論文 1:GloVe: Global Vectors for Word Representation

  • 作者:Jeffrey Pennington, Richard Socher, Christopher D. Manning
  • 機構:史丹佛大學
  • 論文連結:https://aclanthology.org/D14-1162.pdf

論文簡介:學習詞的向量空間表徵的方法已經在使用向量算術捕獲細粒度的語義和句法規則方面取得了成功,但是句法規則仍不透明。該研究分析並明確了為了讓句法規則出現在詞向量中,模型需要具備哪些屬性。

該研究提出了一個新的全域性對數線性迴歸模型 ——GloVe,旨在學習詞的向量表徵。該模型結合了全域性矩陣分解和區域性上下文視窗兩種方法的優點。

GloVe 在詞類比任務上取得了 75% 的最佳效能,並在詞相似性任務和命名實體識別方面優於相關模型。

獲獎理由:詞嵌入是 2013 年至 2018 年間自然語言處理(NLP)深度學習方法的基石,並且持續發揮著顯著影響。它們不僅增強了 NLP 任務的效能,而且在計算語義學方面也產生了顯著影響,例如在詞語相似性和類比上。兩種最有影響力的詞嵌入方法可能是 skip-gram/CBOW 和 GloVe。與 skip-gram 相比,GloVe 提出得較晚。它的相對優勢在於概念上的簡單性,直接根據詞之間的分佈特性最佳化向量空間相似性,而不是從簡化的語言建模角度間接作為一組引數

圖片

圖片

論文 2:Measures of Distributional Similarity

  • 作者:Lillian Lee
  • 機構:康奈爾大學
  • 論文連結:https://aclanthology.org/P99-1004.pdf

論文簡介:作者研究了分佈相似性度量,目的是提高對未見共現事件的機率估計。他們的貢獻有三個方面:對一系列廣泛的度量方法進行實證比較;基於它們所包含的資訊對相似性函式進行分類;引入了一種新的函式,該函式在評估潛在代理分佈方面更為優越。

圖片

終身成就獎

ACL 的終身成就獎頒給了 Ralph Grishman。Ralph Grishman 是紐約大學電腦科學系的教授,專注於自然語言處理(NLP)領域的研究。他是 Proteus Project 的創始人,該專案在資訊抽取(IE)方面做出了重大貢獻,推動了該領域的發展。

圖片

他還開發了 Java Extraction Toolkit (JET),這是一個廣泛使用的資訊抽取工具,提供了多種語言分析元件,如句子分割、命名實體標註、時間表達標註與規範化詞性標註、部分解析和共指分析。這些元件可以根據不同應用組合成管道,既可用於單個句子的互動分析,也可用於整篇文件的批次分析。此外,JET 還提供了簡單工具用於文件的標註和顯示,幷包括完整的流程以按照 ACE(自動內容抽取)規範進行實體、關係和事件的抽取。

Grishman 教授的工作涵蓋了多個 NLP 的核心問題,並對現代語言處理技術產生了深遠的影響。

35 篇傑出論文

  • 論文 1:Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models
  • 作者:Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
  • 機構:CMU、清華大學、鵬城實驗室等
  • 論文連結:https://arxiv.org/pdf/2401.07159

  • 論文 2:L-Eval: Instituting Standardized Evaluation for Long Context Language Models
  • 作者:Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
  • 機構:復旦大學、香港大學、伊利諾伊大學厄巴納 - 香檳分校、上海 AI Lab
  • 論文連結:https://arxiv.org/abs/2307.11088

  • 論文 3:Causal-Guided Active Learning for Debiasing Large Language Models
  • 論文連結:https://openreview.net/forum?id=idp_1Q6F-lC

  • 論文 4:CausalGym: Benchmarking causal interpretability methods on linguistic tasks
  • 作者:Aryaman Arora, Dan Jurafsky, Christopher Potts
  • 機構:史丹佛大學
  • 論文連結:https://arxiv.org/abs/2402.12560

  • 論文 5:Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration
  • 作者:Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
  • 機構:華盛頓大學、加州大學伯克利分校、香港科技大學、CMU
  • 論文連結:https://arxiv.org/abs/2402.00367

  • 論文 6:Speech Translation with Speech Foundation Models and Large Language Models: What is There and What is Missing?
  • 作者:Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
  • 機構:義大利布魯諾・凱斯勒基金會
  • 論文連結:https://arxiv.org/abs/2402.12025

  • 論文 7:Must NLP be Extractive?
  • 作者:Steven Bird
  • 機構:查爾斯達爾文大學
  • 論文連結:https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view

  • 論文 8:IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators
  • 作者:Indraneil Paul、Goran Glavaš、Iryna Gurevych
  • 機構:達姆施塔特工業大學等
  • 論文連結:https://arxiv.org/abs/2403.03894

  • 論文 9:MultiLegalPile: A 689GB Multilingual Legal Corpus
  • 作者:Matthias Stürmer 、 Veton Matoshi 等
  • 機構:伯爾尼大學、史丹佛大學等
  • 論文連結:https://arxiv.org/pdf/2306.02069

  • 論文 10:PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety
  • 作者: Zaibin Zhang 、 Yongting Zhang 、 Lijun Li 、 Hongzhi Gao 、 Lijun Wang 、 Huchuan Lu 、 Feng Zhao 、 Yu Qiao、Jing Shao
  • 機構:上海人工智慧實驗室、大連理工大學、中國科學技術大學
  • 論文連結:https://arxiv.org/pdf/2401.11880

  • 論文 11:Can Large Language Models be Good Emotional Supporter? Mitigating Preference Bias on Emotional Support Conversation
  • 作者:Dongjin Kang、Sunghwan Kim 等
  • 機構:延世大學等
  • 論文連結:https://arxiv.org/pdf/2402.13211

  • 論文 12:Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
  • 作者:Paul Röttger 、 Valentin Hofmann 等
  • 機構:博科尼大學、艾倫人工智慧研究院等
  • 論文連結:https://arxiv.org/pdf/2402.16786

  • 論文 13:Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
  • 作者:Mosh Levy 、 Alon Jacoby 、 Yoav Goldberg
  • 機構:巴伊蘭大學、艾倫人工智慧研究院
  • 論文連結:https://arxiv.org/pdf/2402.14848

  • 論文 14:Do Llamas Work in English? On the Latent Language of Multilingual Transformers
  • 作者:Chris Wendler 、 Veniamin Veselovsky 等
  • 機構:洛桑聯邦理工學院
  • 論文連結:https://arxiv.org/pdf/2402.10588

  • 論文 15:Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models
  • 作者:Zachary Horvitz 、 Jingru Chen 等
  • 機構:哥倫比亞大學、洛桑聯邦理工學院
  • 論文連結:https://arxiv.org/pdf/2403.00794

  • 論文 16:Estimating the Level of Dialectness Predicts Inter-annotator Agreement in Multi-dialect Arabic Datasets
  • 作者:Amr Keleg, Walid Magdy, Sharon Goldwater
  • 機構:愛丁堡大學
  • 論文連結:https://arxiv.org/pdf/2405.11282

  • 論文 17:G-DlG: Towards Gradient-based Dlverse and hiGh-quality Instruction Data Selection for Machine Translation
  • 作者:Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
  • 機構:ByteDance Research
  • 論文連結:https://arxiv.org/pdf/2405.12915

  • 論文 18:Media Framing: A typology and Survey of Computational Approaches Across Disciplines
  • 作者:Yulia Otmakhova, Shima Khanehzar, Lea Frermann
  • 論文連結:https://openreview.net/pdf?id=9AV_zM56pwj

  • 論文 19:SPZ: A Semantic Perturbation-based Data Augmentation Method with Zonal-Mixing for Alzheimer's Disease Detection
  • 作者:FangFang Li、Cheng Huang、PuZhen Su、Jie Yin

  • 論文 20:Greed is All You Need: An Evaluation of Tokenizer Inference Methods
  • 機構:內蓋夫本・古裡安大學、麻省理工學院
  • 作者:Omri Uzan、Craig W.Schmidt、Chris Tanner、Yuval Pinter
  • 論文連結:https://arxiv.org/abs/2403.01289

  • 論文 21:Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't
  • 機構:聖母大學(美國)
  • 作者:Chihiro Taquchi、David Chiang
  • 論文連結:https://arxiv.org/abs/2406.09202

  • 論文 22:Steering Llama 2 via Contrastive Activation Addition
  • 機構:Anthropic、哈佛大學、哥廷根大學(德國)、 Center for Human-Compatible AI
  • 作者:Nina Rimsky、Nick Gabrieli、Julian Schulz、Meg Tong、Evan J Hubinger、Alexander Matt Turner
  • 論文連結:https://arxiv.org/abs/2312.06681

  • 論文 23:EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities
  • 機構:清華大學 - 深圳國際研究生院、清華大學
  • 作者:Nian Li、Chen Gao、Mingyu Li、Yong Li、Qingmin Liao
  • 論文連結:https://arxiv.org/abs/2310.10436

  • 論文 24:M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models
  • 機構:香港中文大學、華為諾亞方舟實驗室、香港科技大學
  • 作者:Wai-Chung Kwan、Xingshan Zeng、Yufei Wang、Yusen Sun、Liangyou Li、Lifeng Shang、Qun Liu、Kam-Fai Wong
  • 論文連結:https://arxiv.org/abs/2310.19240

  • 論文 25:CHECKWHY: Causal Fact Verification via Argument Structure
  • 作者:Jiasheng Si、Yibo Zhao、Yingjie Zhu、Haiyang Zhu、Wenpeng Lu、Deyu Zhou

  • 論文 26:On Efficient and Statistical Quality Estimation for Data Annotation
  • 作者:Jan-Christoph Klie,Juan Haladjian,Marc Kirchner,Rahul Nair
  • 機構:UKP Lab,、TU Darmstadt 、蘋果公司
  • 論文連結:https://arxiv.org/pdf/2405.11919

  • 論文 27:Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!
  • 作者:Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
  • 機構:上海人工智慧實驗室
  • 論文連結:https://arxiv.org/pdf/2402.12343

  • 論文 28:IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages
  • 作者:Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar 等
  • 機構:Nilekani Centre at AI4Bharat、印度理工學院(馬德拉斯)、微軟等
  • 論文連結:https://arxiv.org/pdf/2403.06350

  • 論文 29:MultiPICo: Multilingual Perspectivist lrony Corpus
  • 作者:Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer等
  • 機構:都靈大學、aequa-tech、亞馬遜開發中心(義大利)等
  • 論文連結:https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf

  • 論文 30:MMToM-QA: Multimodal Theory of Mind Question Answering
  • 作者:Chuanyang Jin, Yutong Wu, Jing Cao, jiannan Xiang等
  • 機構:紐約大學、哈佛大學、MIT、加州大學聖迭戈分校、弗吉尼亞大學、約翰霍普金斯大學
  • 論文連結:https://arxiv.org/pdf/2401.08743

  • 論文 31:MAP's not dead yet: Uncovering true language model modes by conditioning away degeneracy
  • 作者:Davis Yoshida, Kartik Goyal, Kevin Gimpel
  • 機構:豐田工業大學芝加哥分校、佐治亞理工學院
  • 論文連結:https://arxiv.org/pdf/2311.08817

  • 論文 32:NounAtlas: Filling the Gap in Nominal Semantic Role Labeling
  • 作者:Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri等

  • 論文 33:The Earth is Flat because.. lnvestigating LLMs' Belief towards Misinformation via PersuasiveConversation
  • 作者:Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang等
  • 機構:清華大學、上海交通大學、史丹佛大學、南洋理工大學
  • 論文連結:https://arxiv.org/pdf/2312.09085

  • 論文 34:Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation
  • 作者:Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim等
  • 機構:韓國科學技術院(KAIST)
  • 論文連結:https://arxiv.org/pdf/2406.07867

  • 論文 35:Word Embeddings Are Steers for Language Models
  • 作者:Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
  • 機構:伊利諾伊大學厄巴納 - 香檳分校
  • 論文連結:https://arxiv.org/pdf/2305.12798

最佳主題論文獎

圖片

論文:OLMo:Accelerating the Science of Language Models

  • 作者:Dirk Groeneveld 、 Iz Beltagy 等
  • 機構:艾倫人工智慧研究院、華盛頓大學等
  • 論文連結:https://arxiv.org/pdf/2402.00838

獲獎理由:這項工作是朝著大型語言模型訓練的透明性和可重複性邁出的重要一步,這是社群在取得進展(或至少為了讓非行業巨頭的其他研究者也能貢獻進展)方面急需的。

資源論文獎

3 篇論文獲得 Resource Paper Award。

論文 1:Latxa: An Open Language Model and Evaluation Suite for Basque
機構:西班牙巴斯克大學

  • 作者:Julen Etxaniz、Oscar Sainz、Naiara Perez、Itziar Aldabe、German Rigau、Eneko Agirre、Aitor Ormazabal、Mikel Artetxe、Aitor Soroa
  • 連結:https://arxiv.org/pdf/2403.20266

獲獎理由:該論文細緻描述了語料收集、資料集評估的細節。儘管是巴斯克語言相關研究,這一方法論可擴充套件到其他低資源語言大模型的構建上。

論文 2:Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

  • 機構:艾倫人工智慧研究院、加州伯克利大學等
  • 作者:Luca Soldaini、Rodney Kinney 等
  • 連結:https://arxiv.org/abs/2402.00159

獲獎理由:該論文展示了訓練大語言模型準備資料集時資料管理的重要性。這為社群內廣大人群提供了非常有價值的洞見。

論文 3:AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

  • 機構:紐約州立大學石溪分校、艾倫人工智慧研究院等
  • 作者:Harsh Trivedi, Tushar Khot 等
  • 連結:https://arxiv.org/abs/2407.18901

獲獎理由:該研究是構建互動環境模擬與評估方面非常重要、驚豔的工作。它將鼓勵大家為社群多多產出硬核動態基準

社會影響力獎

3 篇論文獲得 Social Impact Award。

論文 1:How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

  • 作者:Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang等
  • 機構:弗吉尼亞理工大學、中國人民大學、加州大學戴維斯分校、史丹佛大學
  • 論文連結:https://arxiv.org/pdf/2401.06373

獲獎理由:本文探討了 AI 安全主題 —— 越獄,研究了社會科學研究領域內開發的一種方法。該研究非常有趣,並有可能對社群產生重大影響。

論文 2:DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages

  • 作者:Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja 等
  • 機構:喬治梅森大學、華盛頓大學、聖母大學、 RC Athena
  • 論文連結:https://arxiv.org/pdf/2403.11009

獲獎理由:方言變異是 NLP 和人工智慧領域未能得到充分研究的現象。然而,從語言和社會的角度來看,它的研究具有極高的價值,對應用也有重要的影響。本文提出了一個非常新穎的基準來研究 LLM 時代的這個問題。

論文 3:Having Beer after Prayer? Measuring Cultural Bias in Large LanguageModels

  • 作者:Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
  • 機構:佐治亞理工學院
  • 論文連結:https://arxiv.org/pdf/2305.14456

獲獎理由:本文展示了 LLM 時代的一個重要問題:文化偏見。本文研究了阿拉伯文化和語言環境,結果表明,在設計 LLM 時,我們需要考慮文化差異。因此,同樣的研究可以複製到其他文化中,以概括和評估其他文化是否也受到這個問題的影響。

相關文章