作者:Synced
翻譯:彷彿若有光
第三十五屆 AAAI 人工智慧會議 (AAAI-21) 以虛擬會議的形式拉開帷幕。組委會在開幕式上公佈了最佳論文獎和亞軍。三篇論文獲得了最佳論文獎,三篇被評為亞軍。
AAAI 2021 共收到 9,034 篇論文,再創歷史新高,超過了去年的 8800 篇。來自中國的論文(3,319 篇)幾乎是美國論文數量(1,822 篇)的兩倍。在 7,911 篇去評審的論文中,共有 1,692 篇論文通過。今年的錄取率為21%,略高於去年的20.6%。
點個關注,專注於計算機視覺
最佳論文獎
Informer:超越用於長序列時間序列預測的高效transformer
論文名稱:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting
論文地址:https://arxiv.org/pdf/2012.07436.pdf (文末附下載方式)
機構:北京航空航天大學、加州大學伯克利分校、羅格斯大學、北京國旺福達科技發展公司
作者:Haoyi Zhou、Shanghang Zhang、Jieqi Peng、Shuai Zhang、Jianxin Li、Hui Xiong、Wancai Zhang
摘要:許多實際應用需要預測長序列時間序列,例如用電規劃。長序列時間序列預測(LSTF)需要模型的高預測能力,即高效捕捉輸出和輸入之間精確的長期依賴耦合的能力。最近的研究表明 Transformer 具有提高預測能力的潛力。
然而,Transformer 存在一些嚴重的問題,使其無法直接應用於 LSTF,例如二次時間複雜度、高記憶體使用率以及編碼器-解碼器架構的固有限制。
為了解決這些問題,我們為 LSTF 設計了一個高效的基於 Transformer 的模型,名為 Informer,具有三個鮮明的特徵:
(i)ProbSparse Self-attention 機制,在時間複雜度和記憶體使用方面實現了 O(Llog L),並且具有序列依賴性比對的可比效能。
(ii) 自注意力蒸餾通過將級聯層輸入減半來突出主導注意力,並有效地處理極長的輸入序列。
(iii) 生成式解碼器雖然概念上很簡單,但在一次前向操作中而不是一步一步地預測長時間序列序列,這大大提高了長序列預測的推理速度。
在四個大規模資料集上的大量實驗表明,Informer 顯著優於現有方法,併為 LSTF 問題提供了新的解決方案。
多智慧體學習中的探索-利用:災難理論遇到博弈論
論文:Exploration-Exploitation in Multi-Agent Learning: Catastrophe Theory Meets Game Theory
論文地址:https://arxiv.org/pdf/2012.03083.pdf (文末附下載方式)
院校:新加坡科技與設計大學
作者:Stefanos Leonardos、Georgios Piliouras
摘要:探索-利用是多智慧體學習 (MAL) 中一種強大而實用的工具,但其效果尚不清楚。為了在這個方向上取得進展,我們研究了 Q-learning 的平滑模擬。我們首先表明,我們的學習模型作為研究探索開發的最佳模型具有很強的理論依據。
具體來說,我們證明,對於明確捕獲遊戲和探索成本之間的平衡的成本模型,平滑 Q 學習在任意遊戲中具有有限的遺憾,並且它始終收斂到一組量子響應均衡(QRE),標準解決方案概念對於有限理性下的博弈,在具有異構學習代理的加權潛在博弈中。
在我們的主要任務中,我們然後轉向衡量探索對集體系統效能的影響。我們描述了低維 MAL 系統中 QRE 表面的幾何形狀,並將我們的發現與災難(分叉)理論聯絡起來。特別是,隨著探索超引數隨著時間的推移而演變,系統會經歷相變,其中平衡的數量和穩定性可以從根本上改變,因為探索引數的變化非常小。
基於此,我們提供了一個正式的理論處理,說明如何調整探索引數可以證明導致平衡選擇對系統效能產生積極和消極(並且可能是無限的)影響。
通過強化校準減輕語言模型中的政治偏見
論文名稱:Mitigating Political Bias in Language Models Through Reinforced Calibration
論文地址:https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf (文末附下載方式)
機構:達特茅斯學院、德克薩斯大學奧斯汀分校、Google AI
作者:Ruibo Liu、Chenyan Jia、Jason Wei、Guangxuan Xu、Lili Wang 和 Soroush Vosoughi
摘要:當前的大規模語言模型可能會因其所訓練的資料而存在政治偏見,當它們部署在現實世界中時可能會導致嚴重的問題。
在本文中,我們描述了測量 GPT-2 生成中政治偏見的指標,並提出了一個強化學習 (RL) 框架來減輕生成文字中的政治偏見。通過使用來自詞嵌入或分類器的獎勵,我們的 RL 框架指導去偏差生成,而無需訪問訓練資料或需要重新訓練模型。在對政治偏見敏感的三個屬性(性別、位置和主題)的實證實驗中,我們的方法根據我們的指標和人工評估減少了偏見,同時保持了可讀性和語義一致性。
最佳論文亞軍
從極端強盜反饋中學習
論文名稱:Learning From Extreme Bandit Feedback
論文地址:https://arxiv.org/pdf/2009.12947.pdf (文末附下載方式)
機構:加州大學伯克利分校、德克薩斯大學奧斯汀分校
作者:Romain Lopez、Inderjit Dhillon、Michael I. Jordan
摘要:我們研究了在極大動作空間的設定中從強盜反饋中批量學習的問題。從極端強盜反饋中學習在推薦系統中無處不在,其中在一天內對由數百萬個選擇組成的集合做出數十億個決策,產生大量觀察資料。
在這些大規模的現實世界應用中,儘管由於bandit反饋和監督標籤之間的不匹配而導致顯著的偏差,但諸如極限多標籤分類 (XMC) 之類的監督學習框架被廣泛使用。這種偏差可以通過重要性取樣技術來減輕,但這些技術在處理大量動作時會出現不切實際的差異。
在本文中,我們引入了一種選擇性重要性取樣估計器 (sIS),它在一個明顯更有利的偏差方差機制中執行。sIS 估計器是通過對每個例項的一小部分動作(Rao-Blackwellization 的一種形式)對獎勵的條件期望進行重要性取樣來獲得的。
我們在一個新的演算法程式中使用這個估計器——稱為極端模型的策略優化 (POXM)——從強盜對 XMC 任務的反饋中學習。在 POXM 中,sIS 估計器選擇的動作是日誌策略的 top-p 動作,其中 p 是根據資料調整的,並且明顯小於動作空間的大小。
我們在三個 XMC 資料集上使用監督到強盜的轉換來對我們的 POXM 方法與三種競爭方法進行基準測試:BanditNet、以前應用的部分匹配修剪策略和監督學習基線。雖然 BanditNet 有時比日誌記錄策略略有改進,但我們的實驗表明,POXM 在所有基線上都有系統且顯著的改進。
Self-Attention Attribution:解讀transformer內部的資訊互動
論文名稱:Self-Attention Attribution: Interpreting Information Interactions Inside Transformer
論文地址:https://arxiv.org/pdf/2004.11207.pdf (文末附下載方式)
機構:北京航空航天大學、微軟研究院
作者:郝亞茹、李東、傅如薇、許柯
摘要:基於 Transformer 的模型的巨大成功得益於強大的多頭自注意力機制,該機制從輸入中學習令牌依賴性並編碼上下文資訊。先前的工作努力將模型決策歸因於具有不同顯著性度量的單個輸入特徵,但他們未能解釋這些輸入特徵如何相互作用以達到預測。
在本文中,我們提出了一種自注意力歸因演算法來解釋 Transformer 內部的資訊互動。我們以BERT為例進行廣泛的研究。首先,我們提取每一層中最顯著的依賴關係來構建一個歸因圖,它揭示了 Transformer 內部的分層互動。此外,我們應用 selfattention 歸因來識別重要的注意力頭,而其他注意力頭只能在邊緣效能下降的情況下進行修剪。
最後,我們表明歸因結果可以用作對抗性模式來實施對 BERT 的非針對性攻擊。
雙重任務巡邏:綠色安全的多臂強盜
論文名稱:Dual-Mandate Patrols: Multi-Armed Bandits for Green Security
論文地址:https://arxiv.org/pdf/2009.06560.pdf (文末附下載方式)
機構:哈佛大學、卡內基梅隆大學
作者:Lily Xu、Elizabeth Bondi、Fei Fang、Andrew Perrault、Kai Wang、Milind Tambe
摘要:在綠色安全領域保護野生動物和森林的保護工作受到防禦者(即巡邏者)的有限可用性的限制,他們必須巡邏大片區域以防止攻擊者(例如偷獵者或非法伐木者)。防禦者必須選擇在保護區的每個區域花費多少時間,平衡不常訪問區域的探索和已知熱點的開發。
我們將問題表述為隨機多臂bandit,其中每個動作代表一個巡邏策略,使我們能夠保證巡邏策略的收斂速度。然而,幼稚的bandit方法會為了長期最優而損害短期效能,導致動物被偷獵和森林被毀。
為了加快效能,我們利用獎勵函式的平滑性和動作的可分解性。我們展示了 Lipschitz 連續性和分解之間的協同作用,因為每個都有助於另一個的收斂。通過這樣做,我們彌合了組合bandit和 Lipschitz bandit之間的差距,提出了一種無悔方法,可以在優化短期效能的同時收緊現有保證。
我們證明了我們的演算法 LIZARD 提高了柬埔寨真實世界偷獵資料的效能。
原文連結:
https://synced.medium.com/aaai-2021-best-papers-announced-c32307f3d39b
在公眾號 “CV技術指南” 後臺回覆關鍵字 “ 0004 ” 可獲取以上論文。
本文來源於公眾號 CV技術指南 的論文分享系列。
歡迎關注公眾號 CV技術指南 ,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。
在公眾號中回覆關鍵字 “技術總結” 可獲取以下文章的彙總pdf。
其它文章
經典論文系列 | 目標檢測--CornerNet & 又名 anchor boxes的缺陷
在做演算法工程師的道路上,你掌握了什麼概念或技術使你感覺自我提升突飛猛進?