AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

騰訊AI實驗室發表於2019-02-01

美國人工智慧年會(the Association for the Advance of Artificial Intelligence),簡稱AAAI,是人工智慧領域的頂級國際會議。會議由AAAI協會主辦,今年是第33屆,於1月27日-2月1日在美國夏威夷舉行。騰訊AI Lab第2次參與會議,共27篇文章入選,涵蓋自然語言處理計算機視覺機器學習等領域。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文
其中,騰訊AI Lab在自然語言處理領域,主要關注知識庫與文字理解、對話和文字生成、和機器翻譯這三大方向。以下為詳細解讀。

知識庫與文字理解

自然語言處理研究中,各種型別的知識(Knowledge,包括語義知識、實體關係知識、常識知識)已成為文字理解和下游任務中不可或缺的資料資源。騰訊AI Lab的多篇AAAI 2019論文關注了知識庫的建模,及其在文字理解上的應用。

知識庫與短文字理解

1.基於Lattice CNN的中文問答匹配方法

Lattice CNNs for Matching Based Chinese Question Answering

問答系統是普通使用者使用知識庫最直接的渠道。匹配使用者問題這種短文字,通常面臨相同語義的單詞和表達方式不唯一的挑戰。 中文這種還需要額外分詞的語言中,這種現象尤為嚴重。在論文《基於Lattice CNN的中文問答匹配方法(Lattice CNNs for Matching Based Chinese Question Answering)》中,研究者提出一個基於Lattice CNN的模型,利用在單詞語義中多粒度的資訊來更好地處理中文問答的匹配。在基於文字問答和知識庫問答的實驗中,實驗結果表明提出的模型可以顯著超過目前最好的匹配模型。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

基於Lattice CNN模型理解短文字的框架

涉及新實體的知識庫嵌入

2.基於邏輯注意力鄰域聚集的歸納知識圖譜嵌入方法

Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding

知識庫嵌入的目的是用低維向量建模實體和關係,用於下游任務。已有方法大多要求所有實體在訓練時可見,這在每天更新的知識庫中是不切實際的。在論文《基於邏輯注意力鄰域聚集的歸納知識圖譜嵌入方法(Logic Attention Based Neighborhood Aggregation for Inductive Knowledge Graph Embedding)》中,研究者使用同時訓練鄰域聚集模型的方式來去除這種限制,並提出一種基於規則和注意力機制的聚集模型,即邏輯注意力網路(LAN)。在兩個知識圖譜補全任務上,LAN被證明優於傳統聚集模型。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

涉及新實體(Emerging Entity)的連結預測任務

常識知識庫與故事補全

3.結構化常識在故事補全中的應用

Incorporating Structured Commonsense Knowledge in Story Completion

為故事選擇恰當的結尾可以視作通往敘述型文字理解的第一步。這不僅需要顯式的線索,還需要常識知識,而絕大多數已有工作都沒有顯式的使用常識。在論文《結構化常識在故事補全中的應用(Incorporating Structured Commonsense Knowledge in Story Completion)》中,研究者提出一個整合了敘述線索、情感演變以及常識知識的神經網路模型。這個模型在公共資料集ROCStory Cloze Task上取得了最好的效能。實驗結果同時顯示,引入常識知識帶來了顯著的效能增益。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

故事和結尾中的關鍵詞在常識知識庫中的聯絡

對話和文字生成

近年來,隨著端到端的深度神經網路的流行,對話生成及更多場景的文字生成逐漸成為自然語言處理中一個熱點研究領域。其中,對話生成技術正逐漸廣泛地應用於智慧對話系統,幫助實現更為智慧的人機互動,也可以透過自動生成新聞、財報及其它型別的文字,提高撰文者的工作效率。

在對話生成問題上,透過遷移神經機器翻譯序列到序列模型等,對話生成的效果取得了顯著的進展。然而,現有的對話生成模型仍存在較多問題。首先,目前的模型大多模擬的是輸入到回覆一對一的對映,而實際對話資料經常是一對多的關係的訓練方式,因此模型容易輸出通用回覆,欠缺回覆多樣性。其次,目前的回覆生成模型缺乏對於使用者背景、通用常識等知識的理解,因此如何挖掘更多有用的知識來指引回覆生成是一個重要的研究問題。再次,目前多數的研究工作重點在提升單輪迴復的生成之類,而缺乏對多輪對話生成的改進,多輪迴復生成的質量仍較差。

在文字生成問題中,根據不同的輸入型別,現有的研究任務大致劃分為三大類:文字到文字的生成,資料到文字的生成以及影像、影片、音訊到文字的生成。每一類的文字生成技術都極具挑戰性,在近年來的自然語言處理人工智慧領域的頂級會議中均有相當多的研究工作。

騰訊AI Lab在對話生成及文字生成技術均有相關的論文被AAAI2019接收。

短文字中生成回覆

4.短文字對話中的多樣性回覆

Generating Multiple Diverse Responses for Short-Text Conversation

短文字生成任務之前的工作,主要聚焦在如何學習一個模型為輸入及其回覆建立一個一對一的對映關係。但在實際場景中,一個輸入往往有多種回覆。因此,研究者提出了一種新的回覆生成模型,在訓練過程中考慮了一個提問同時具有多個回覆的情況。具體來說,假設每個輸入可以推斷出多個潛在詞,不同的回覆是圍繞著不同的潛在詞而產生的。研究者設計了一個基於強化學習演算法的對話生成模型。如下圖所示,所提出的框架主要有兩個核心部分:(1)潛在詞推斷網路:其根據輸入的提問來選擇合適的潛在詞作為生成網路輸入的一部分;(2)生成網路,根據潛在詞推斷網路選擇的潛在詞以及輸入的提問來生成回覆。基於強化學習的訓練過程中,使用F1值來計算潛在詞推斷網路的獎賞並更新推斷網路引數,並選取這多個回覆中損失最小的一項來更新生成網路引數

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

模型框架圖

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文
AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

微博(左)和Twitter(右)資料集人工評測結果

研究者分別在微博和Twitter兩個資料集上進行大量實驗,人工評測的結果表明所提出的模型相比多個之前的模型,在提升回覆資訊量的同時保證了回覆的多樣性。以下是基線模型MultiMech和我們所提出的模型在微博資料集上的生成樣例。方括號內為潛在詞推斷網路選擇的潛在詞。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

微博資料集生成樣例

多選干擾項生成

5.閱讀理解問題的干擾選項生成

Generating Distractors for Reading Comprehension Questions from Real Examinations

本文探究了考試中為多選閱讀理解題型生成干擾項的任務。和之前工作不同,研究者不以生成單詞或短語型別的干擾項為目的,趨向生成更長並含有豐富語義資訊的干擾項,從而生成的干擾項和真實考試中閱讀理解題目的干擾項儘可能接近

模型框架概覽

如圖所示,以閱讀理解文章,問題和正確的答案選項作為輸入,目標是生成多個與答案有關聯,和問題語義上連貫並能在文章中找到蛛絲馬跡的干擾項。研究者提出了一個層次編碼器-解碼器模型,輔之以靜態與動態注意力機制來解決這個任務。具體來說,動態注意力機制可以融合句子級別和詞級別的注意力資訊,並在解碼的每一個步驟會有所變化,從而生成一個可讀性更強的序列。靜態注意力機制可以調製動態注意力機制,打壓與當前問題無關的句子或者包含正確答案的句子。

透過第一個閱讀理解問題干擾項生成資料集上的實驗,本文提出的模型超過了多個基線模型。人工評測中與一些基線模型生成的干擾項相比,其模型生成的干擾項更加容易迷惑標註者。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

實驗結果

新聞摘要生成

6.考慮讀者評論的生成式文字摘要

Abstractive Text Summarization by Incorporating Reader Comments

在基於神經網路的生成式文字摘要研究領域中,傳統的基於序列到序列的模型對文件主題的建模經常出錯。為解決這個問題,研究者提出了讀者感知的摘要生成任務,它利用讀者的評論來幫助生成符合文件主題的更好的摘要。與傳統的生成式摘要任務不同,讀者感知型摘要面臨兩個主要挑戰:(1)評論是非正式的,有噪音的; (2)聯合建模新聞文件和讀者評論具有一定挑戰性。

為解決上述問題,本文設計了一個基於對抗學習的讀者感知型摘要生成模型(RASG),它由四個部分組成:(1)基於序列到序列的摘要生成模組; (2)讀者注意力建模模組來捕捉讀者關注的主題; (3)督導建模模組來描述生成的摘要和讀者關注主題之間的語義差距; (4)目標跟蹤模組來產生每個生成步驟的目標。督導和目標定位模組以對抗學習的方式來指導我們框架的訓練。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

模型框架概覽

研究者在自行收集的文摘資料集進行大量實驗,結果表明RASG在自動評測和人工評測方面都取得了最好的效果。實驗結果還證明了該框架中每個模組的有效性,同時研究人員釋出了一個大規模資料集供進一步研究。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文
AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

自動評測結果(左)和人工評測結果

機器翻譯

機器翻譯人工智慧的終極目標之一,其核心語言理解和語言生成是自然語言處理的兩大基本問題,極具挑戰性。近幾年來,隨著深度學習技術的發展,神經網路機器翻譯取得了巨大進展,其生成的譯文接近自然句子,成為了主流模型。但是由於當前神經網路的不可解釋性,無法保證原文內容完整傳遞到譯文,使得神經網路翻譯模型存在譯文忠實度問題(即“達而不信”)。騰訊AI Lab專注於解決該核心問題,在AAAI2019會議上發表的多篇論文透過改進模型架構和訓練框架,提升模型對源句理解和目標句生成的能力,從而改善神經網路翻譯模型忠實度低的問題。

自注意力模型

7.上下文增強的自注意力神經網路

Context-Aware Self-Attention Networks

自注意力模型透過直接計算任意兩個詞的向量表示,得到它們的關聯性強弱(圖(a))。由於其極佳的並行性運算及捕獲長距離依賴的能力,自注意力模型成為當前主流翻譯模型(如Transformer)的核心元件。在本工作中,透過改進自注意力模型的全域性上下文建模能力,從而更好地計算詞間的關聯性。研究者使用不同策略來建模全域性上下文資訊,如頂層全域性資訊(圖(b))、深層資訊(圖(c))及深層全域性資訊(圖(d))。為保持自注意力模型的並行性及簡易性,研究者將上下文資訊引入注意力模型輸入(如Query和Key)的轉化函式中。該論文是改進自注意力模型的第二個工作,前續工作(Modeling Localness for Self-Attention Networks, EMNLP2018)改進了自注意力模型的區域性建模能力 。
AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

深層模型

8.基於動態層融合的神經網路機器翻譯

Dynamic Layer Aggregation for Neural Machine Translation

主流的翻譯模型都是深層網路結構,比如Transformer模型的編碼器和解碼器都是由多層自注意力網路組成。近期多個工作表明不同層表示可以捕獲輸入句子不同級別的語言學資訊,但主流模型只利用了編碼器和解碼器的最上層表示資訊,而忽視了其餘層包含的有用資訊。本研究使用膠囊網路中的迭代路徑 (iterative routing)演算法融合所有層的表示,從而更好地利用不同層捕獲的不同語言學資訊。該論文為利用深層表示的第二個工作,前續工作(Exploiting Deep Representations for Neural Machine Translation, EMNLP2018)使用深層連線改進深層網路中資訊和梯度的傳遞路徑(Information and Gradient Flow),而本工作更關注於直接融合不同層表示(Representation Composition)。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

忠實度導向的訓練框架

9.基於譯文忠實度訓練的神經網路機器翻譯

Neural Machine Translation with Adequacy-Oriented Learning

當前翻譯模型的訓練通常是基於最大化詞的似然機率的框架。該框架有三個缺陷:(1)訓練/測試不一致,訓練時是基於正確的目標序列而測試時是由於包含錯誤的生成序列;(2)基於詞級別的目標函式,而在實際場景中評判譯文質量的指標通常是基於句子級別的;(3)最大似然估計更多是關注譯文的流利度而不是忠實度,這也是導致模型偏好短譯文的重要原因。

本研究嘗試在統一框架中同時解決上述三個缺陷。如圖1所示,將翻譯建模成強化學習中的隨機策略(Stochastic Policy)問題,而學習獎勵則是基於模型生成的完整序列評估的。為了更好地評估譯文的忠實度,本文提出了一種新的標準 – 覆蓋差異率(Coverage Difference Ratio, CDR),透過比較生成譯文和人工譯文對源端詞的覆蓋程式,以評估有多少源端詞被遺漏翻譯。在圖2展示的例子中,譯文的 CDR=4/7,其中4和7分別是生成譯文和人工譯文中覆蓋的源端詞個數。 該論文中的覆蓋率思想也是延續作者的前續工作(Modeling Coverage for Neural Machine Translation),在訓練框架中驗證該策略的普適性,實驗同時證明兩種方法具有一定互補性,同時使用可進一步提升翻譯效果。

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

圖 1 訓練框架

AAAI2019 | 騰訊AI Lab詳解自然語言處理領域三大研究方向及入選論文

圖 2 CDR示例

除了改進基本的翻譯模型,研究者同時探索輔助翻譯,從而使當前神經網路機器翻譯系統更好地為真實使用者服務。圍繞最近推出的輔助翻譯產品TranSmart, 騰訊AI Lab發表在AAAI2019的論文(Graph Based Translation Memory for Neural Machine Translation) 將使用者提供的或者自動檢索的翻譯記憶融入神經翻譯模型,從而改善翻譯質量。不同於現有的翻譯記憶方法,本文將翻譯記憶組織成一個壓縮圖並採用基於圖的注意力機制來構建翻譯的上下文。其優勢是,既可以保證計算的有效性,又可以充分地建模翻譯記憶中全域性資訊比如長距離的調序,因而獲得了更好的翻譯質量。

入選論文

精彩一覽

10. MOBA遊戲AI的多層次宏觀策略模型

Hierarchical Macro Strategy Model for MOBA Game AI

該論文由騰訊AI Lab獨立完成,在通用AI研究中,可解決部分可觀測、團隊協作、博弈等複雜AI問題。即時戰略遊戲是遊戲AI的下一個挑戰。即時戰略遊戲給AI研究提供了一個部分可觀測的遊戲環境,智慧體在這樣的環境中基於比圍棋大的多的操作空間產生互動。攻克即時戰略遊戲需要同時具備強大的宏觀策略及精準的微觀執行。最近,研究人員在微觀執行層面取得了巨大突破,然而宏觀策略層面仍然缺乏完整有效的解決方案。該論文創新提出了基於機器學習的多層宏觀策略模型以提升智慧體在多人線上格鬥遊戲(MOBA)遊戲 - 即時戰略遊戲的一個子類 - 中的宏觀策略能力。經過多層次宏觀策略模型訓練的智慧體顯示的進行宏觀策略決策以指導微觀操作。更進一步的,每一個智慧體在做決策的同時,透過本文創新設計的模仿跨智慧體通訊機制與其他智慧體進行配合。研究者在一款風靡的5v5 MOBA遊戲(王者榮耀)上充分驗證了多層次宏觀策略模型的效果。研究團隊的5 AI戰隊在與前1%的人類戰隊的對戰測試中,取得了48%的勝率。

11. 意見目標抽取以及目標情感預測的統一模型

A Unified Model for Opinion Target Extraction and Target Sentiment Prediction

該論文由騰訊AI Lab主導,與香港中文大學合作完成,該研究透過改進基本的序列標註模型來提升端到端抽取使用者評論中的意見目標和相應的情感傾向的效能。基於意見目標的情感分析(TBSA)涉及到了意見目標抽取和目標情感預測兩個子任務。目前的工作主要是將他們作為兩個單獨的任務來研究,對於實際應用的貢獻是非常有限的。這篇文章的目標在於以一種端到端的方式來解決完整的TBSA任務。為了實現這個目標,本文提出了一個新的統一模型並在模型中採用了一種聯合的標註方案。整個模型用到了兩層迴圈神經網路(RNN):上層的RNN用來預測聯合的標籤,這些標籤會作為主要任務TBSA的輸出;為了引導上層的RNN更好的完成TBSA任務,本文引入了下層的RNN來同時解決輔助任務--意見目標實體的邊界檢測。RNN產生的邊界特徵表示可以直接用於提升目標情感預測的質量。為了探索任務之間的依賴,本文提出顯式地對目標邊界到目標情感極性的轉換進行約束。本文也設計了一個元件對同一個意見目標內的情感一致性進行維持,這個元件主要基於門控制機制來對上一個時刻的特徵和當前時刻的特徵之間的關係進行建模。本文在三個標準資料集上進行了大量實驗,結果表明本文的方法都比現有的方法更好。

12. 透過樣本加權進行更好地微調文字分類模型

Better Fine-tuning via Instance Weighting for Text Classification

該論文由騰訊AI Lab主導,與南京大學合作完成。深度神經網路中使用遷移學習在許多文字分類應用中取得了巨大成功。一種簡單而有效的遷移學習方法是對預訓練的模型引數進行微調。之前的微調工作主要集中在預訓練階段,並且研究如何預訓練一組對目標任務最有幫助的引數。本文提出了一種基於樣本加權的微調(IW-Fit)方法,對於微調階段進行了改進以提高分類器在目標域的最終效能。 IW-Fit動態調整每個微調時期的樣本權重,以實現兩個目標:1)有效地識別和學習目標域的特定知識; 2)很好地保留源域和目標域之間的共享知識。 IW-Fit中使用的樣本加權計算指標與模型無關,對於基於DNN的通用分類器而言易於實現。實驗結果表明,IW-Fit可以持續提高模型在目標域的分類精度。

13. 深層特徵結構學習方法

Learning (from) Deep Hierarchical Structure among Features

該論文由香港科技大學與騰訊 AI Lab合作完成,提出了多種層次結構特徵學習方法。資料中的特徵通常存在著複雜的層次結構。大多數現有的研究側重於利用已知的層次結構來幫助監督學習提高學習的精度,而且通常僅能夠處理層次深度為2的簡單結構。本文提出了一種深度層次特徵學習方法(DHS),用於學習任意深度的特徵層次結構,並且學習目標是凸函式。DHS方法依賴於結構中邊上的權重的指數係數,然而這些指數係數需要提前人為給定,這會導致學習出的特徵表達是次優的。基於DHS方法,本文又提出了可以自動學習這些指數係數的方法。進一步的,本文考慮層次結構未知的情況,並且在DHS的基礎上又提出一種深度特徵層次結構學習方法(LDHS)。不同於以往的方法,LDHS不需要知道關於層次結構的先驗知識,而是透過fused-lasso技術和一種特定的序列約束條件直接從資料中學習出特徵的層次結構。上述所有提出的模型的最佳化方法都可以透過近似梯度的方式求解,並且本文給出了求解過程中每個子問題的高效解答演算法。本文在多種人工和真實資料集上進行了實驗,結果表明了本文提出方法的有效性。

14. DDFlow:透過無監督資料蒸餾學習光流

DDFlow:Learning Optical Flow with Unlabeled Data Distillation

這項研究由騰訊AI Lab主導,與香港中文大學合作完成,提出一種無監督的資料蒸餾方法學習光流——DDFlow。該方法由一個教師模型中提取出預測結果,並用這些結果來指導學生模型學習光流。以往的無監督學習方法是透過一些人工設定的能量函式來處理被遮擋的區域,這篇論文的不同之處是透過資料來自動學習和預測被遮擋區域的光流。透過該方法,模型只需使用一個非常簡單的目標函式,就能取得更高的準確率。本文在Flying Chairs, MPI Sintel, KITTI 2012 和 KITTI 2015四個資料集上做了詳盡的實驗。實驗表明,本文提出的方法超過所有無監督的光流預測方法,並且可以實時執行。

15. 類間角度損失用於卷積神經網路

Inter-Class Angular Loss for Convolutional Neural Networks

這項研究由南京理工大學與騰訊AI Lab合作完成。卷積神經網路在各種分類任務中表現出強大的力量,並且在實際應用中取得了顯著的成果。然而,現有網路在很大程度上忽略了不同類別對的區分學習難題。例如,在CIFAR-10資料集中,區分貓和狗通常比區分馬和船更難。透過仔細研究卷積神經網路模型在訓練過程中的行為,研究者觀察到兩類的混淆程度與它們在特徵空間中的角度可分性密切相關。也就是說,類間角度越大,混淆度越低。基於這一觀察,研究者提出了一種新的損失函式,稱為“類間角度損失”(ICAL)。它明確地模擬了類相關性,可以直接應用於許多現有的深度網路。透過最小化ICAL,網路可以透過擴大它們對應的類向量之間的角度來有效地區分相似類別中的示例。對一系列視覺和非視覺資料集的全面實驗結果證實,ICAL極大地提高了各種代表性深度神經網路的辨別能力,併為傳統的softmax損失產生了優於原始網路的效能。

16. 基於最大化後驗估計的詞嵌入模型

Word Embedding as Maximum A Posteriori Estimation

這項研究由肯特大學與騰訊AI Lab合作完成。詞嵌入模型GloVe可以被重構成一個最大似然估計問題,再透過最佳化的方式進行求解。該論文透過考慮基於GloVe引數化方法,同時結合先驗分佈來對GloVe詞嵌入模型進行泛化。本文提出了一個新的詞嵌入模型,該模型對每個上下文詞的變化進行建模,來表示這個詞的資訊重要性。論文中提出的框架可以統一學習詞向量和每個詞的變化。實驗表明本文提出詞向量模型優於GloVe和它的其他變種。

17.可控的影像到影片轉換:關於人臉表情生成的案例分析

Controllable Image-to-Video Translation: A Case Study on Facial Expression Generation

這項研究由騰訊AI lab主導,與麻省理工學院(MIT)合作完成。深度學習的最新進展使得利用神經網路生成如照片般逼真的影像成為可能,甚至可以從影片過去幾幀推斷出未來幾幀——某種意義上,實現了從過去影片到未來影片的生成。為了進一步深化這種探索,同時也出於對實際應用的興趣,我們研究了影像到影片的轉換,特別關注面部表情的影片。與影像到影像的轉換相比,該問題透過一個額外的時間維度來挑戰深度神經網路;此外,這裡的單張輸入影像使大多數影片到影片轉換的方法無法應用。為了解決這個新問題,研究者提出了一種使用者可控制的方法,以便從單個人臉影像生成各種長度的表情影片剪輯,使用者可控制影片的長度和表情的型別。因此,我們設計了一種新穎的神經網路架構,可將使用者輸入作用到網路的跳層連線上;同時,提出對神經網路對抗訓練方法的若干改進。透過實驗和使用者研究驗證了該方法的有效性。尤其值得強調的是,即使隨機的網路影像和作者自己的影像相對於訓練資料有較大的差異,本文的模型也可以生成高質量的面部表情影片,其中約50%被使用者認為是真實採集的影片。

18. 利用考慮偏好的損失學習實現任務遷移

Task Transfer by Preference-Based Cost Learning

這項研究由清華大學與騰訊AI Lab合作完成。強化學習中的任務遷移旨在把智慧體在源任務中的策略遷移到目標任務。儘管當前方法取得了一定成功,但是他們依賴於兩個很強的假設:1)專家演示和目標任務精確相關 以及 2)目標任務中的損失函式需要顯式定義。在實際中這兩個假設都是難以滿足。該論文提出了一個新穎的遷移框架減少對這兩個假設的依賴,為此,研究者使用了專家偏好作為遷移的指導。具體而言,研究者交替進行以下兩個步驟:首先,研究者透過預定義的專家偏好從源任務鴻挑選與目標任務相關的演示;然後,基於這些挑選的演示,研究者透過利用增強版的對抗最大熵模型來同時學習目標損失函式以及狀態-操作的軌跡分佈。該論文的理論分析證明了方法的收斂性。大量的模擬實驗也驗證了該論文方法的有效性。

19. 超越RNN:面向影片問答的具有位置特性的自注意力和互動注意力模型

Beyond RNNs: Positional Self-Attention with Co-Attention for Video Question Answering

這項研究由電子科技大學與騰訊AI Lab合作完成。當前,大部分實現影片問答的方法都是基於考慮注意力的遞迴神經網路(RNN)。雖然取得一些進展,但是RNN的侷限性導致了這些方法往往需要花費大量訓練時間卻難以捕捉長時間關聯。該論文提出了一種新的架構,具有位置屬性的自注意力和互動注意力結合(PSAC),這個框架不再需要RNN來實現影片問答。具體而言,研究者從機器翻譯自注意力的成功得到啟發,提出了一種具有位置屬性的自主力模型來計算同一個序列中每個位置自身的啟用以及其與其他位置的相關啟用。因此,PASC能利用問題與影片的全域性依賴,並且使得問題和影片編碼能並行進行。除了利用影片自注意力,研究者更進一步查詢問題中“哪些單詞需要注意”來設定互動注意力機制。據研究者所知,這是影片問答領域中首次嘗試去拋開RNN而只用注意力模型。在三個公開的資料集上,本文的方法顯著優於當前最好,並且在另外一個資料集上取得了接近當前最好的結果。與RNN模型相比,本文的方法在更短的運算時間取得了更高的精度。此外,本文還進行了若干對比實驗來驗證方法每個元件的有效性。

20. 置信加權多工學習

Confidence Weighted Multitask Learning

這項研究由阿卜杜拉國王科技大學與騰訊AI Lab合作完成。為了緩解傳統線上多工學習僅利用了資料流的一階資訊的問題,我們提出置信加權多工學習的演算法。對於每個任務,它都維護了一個高斯分佈來引導線上學習過程。高斯分佈的均值向量(協方差矩陣)是一個區域性成分和全域性成分的和,其中全域性成分是在所有任務間共享的。此外,本文也解決了線上多工學習場景下主動學習的挑戰。不同於索要所有樣本的標籤,所提演算法可以基於相關任務的預測置信度來決定是否索要相應的標籤。理論結果顯示,後悔上界可以被顯著的減小。經驗結果表明,所提演算法可以獲得很高的學習效能,且同時可以減小標註成本。

21. 旨在提升asepct-level情感分類的、從粗粒度到細粒度的遷移學習

Exploiting Coarse-to-Fine Task Transfer for Aspect-level Sentiment Classification

這項研究由香港科技大學與騰訊AI Lab合作完成。Aspect-level的情感分類旨在找出句子裡針對具體aspect的情感傾向,其中aspect可以是一個泛類(AC-level),比如食品、服務,也可以是一個具體的項(AT-level),比如三文魚、時速。然而,由於極其耗時耗力的標註成本,當前AT-level的公開資料集都相對較小。受限於這些小規模的資料集,當前大多數方法依賴於複雜的結構,從而限制了神經網路模型的有效性。該論文提出了一個新的解決方案,即從資料相對充足的粗粒度任務(AC-level)到資料稀疏的細粒度任務(AT-level)進行遷移學習。為了解決兩個領域在aspect粒度以及特徵上的不一致,本文提出了一個多粒度對齊網路(MGAN)。在MGAN中,一個全新的Coarse2Fine注意力機制可以幫助AC-level的任務也可以建模同AT-level相似的細粒度。同時,一個對比的特徵對齊方法用來語義對齊兩個領域的特徵表示。另外,本文提供了一個AC-level的大規模多領域情感分類資料集。大規模的實驗證明了MGAN的有效性。

22. 基於屬性倉庫的表親網路引導的素描圖識別

Cousin Network Guided Sketch Recognition via Latent Attribute Warehouse

這項研究由騰訊AI Lab主導,與澳洲國立大學合作完成,本論文對掃描圖片識別的問題進行研究。由於兩個原因導致該問題難度較高:1)素描圖片相對自然圖片比較稀缺,2)素描圖片與自然圖片之間存在較大的鴻溝。為了克服這些困難,研究者提出了利用自然影像訓練好的網路(表親網路)來引導素描圖片識別網路的學習過程。表親網路將引導素描圖片識別網路學習更多與自然影像相關的特徵(透過對抗學習)。為加強分類模型的可遷移能力,一個連線自然影像和素描影像的屬性倉庫建立起來,以逼近自然影像和素描影像的域間差。實驗證明本文提出的方法取得了當前最優的識別效能。

23. 層級化的照片場景編碼器用於相簿故事生成

Hierarchical Photo-Scene Encoder for Album Storytelling

這項研究由騰訊AI Lab主導,與山東大學合作完成。本文提出了一種用於相簿故事生成的新型模型,該新型模型使用了層級相片-場景編碼器和重構器。其中,相片-場景編碼器包含兩個子模組,分別是相片編碼器和場景編碼器,它們重疊在一起,以分層的形式充分利用相簿中照片的結構資訊。具體來說,相片編碼器利用相簿中相片的時序關係的同時,為每一張照片生成語義表示。場景編碼器依賴於生成的相片語義表示,負責檢測相簿的場景變化並生成場景特徵。接著,解碼器動態地、有選擇性地總結這些編碼的相片和場景語義表示,用以生成相簿表示序列。基於此,一個含有多個一致性句子的故事就產生了。為了充分提取和利用相簿中有效的語義資訊,重構器被引入到該模型中,來重構那些基於解碼器的隱藏狀態而被動態總結了的相簿表示。本文提出的模型以一種端到端的形式進行訓練,在公開的visual storytelling資料集(VIST)上得到了更好的效能。對比研究實驗進一步論證了本文所提出的層級相片-場景編碼器和解碼器的有效性。

24. 結構化常識在故事補全中的應用

Incorporating Structured Commonsense Knowledge in Story Completion

這項研究由加州大學戴維斯分校與騰訊AI Lab合作完成。為一個給定的故事選擇恰當的結尾,被認為是通往敘述型文字理解的第一步。故事結尾預測不僅需要顯式的線索,還得需要一些隱式的知識(如常識)。之前絕大多數方法都沒有明顯地使用各種背景常識。該論文提出一個基於神經網路的故事結尾預測模型,這個模型整合了三種不同型別的資訊來源:敘述線索、情感演變以及常識知識。實驗結果表明本文的模型在一個公共資料機ROCStory Cloze Taks上取得了最好的效能。同時,實驗結果表明引入常識知識帶來了顯著的效能增益。

25. 一種針對多模態資料的高效特徵提取方法 

An Efficient Approach to Informative Feature Extraction from Multimodal Data

這項研究由騰訊AI Lab主導,與清華大學、清華-伯克利深圳學院、麻省理工學院(MIT)合作完成。多模態特徵提取的一個研究重點在於如何找到每個模態中相關度最大的特徵表達。作為一種常用的相關度度量方式,HGR最大相關度因較好的理論性質,經常被作為最佳化的目標函式。然而,HGR最大相關度中對於白化的嚴格約束,部分限制了其應用。為解決這一問題,本文提出了Soft-HGR的新框架,以解決從多個資料模態中提取有效特徵的問題。具體來說,本方法在最佳化HGR最大相關度的過程中,避免了嚴格白化約束,同時也能保持特徵的集合特性。Soft-HGR的最佳化目標僅包含兩個內積項,可以保證最佳化過程的求解效率和穩定性。研究者進一步將該方法泛化,用於解決超過兩個資料模態以及部分模態缺失的問題。對於資料中僅有部分標註資訊的情況,研究者可以透過半監督適應的方法,使得所提取的特徵更具有判別力。實驗結果表明,本文的方法可以學習到更有資訊量的特徵對映,同時最佳化過程也更為高效。

26. Plan-And-Write: 更好的自動故事寫作

Plan-And-Write: Towards Better Automatic Storytelling

這項研究由北京大學、南加州大學與騰訊AI Lab合作完成。自動故事生成的目標是用更長、更流暢的語句來描述一個有意義的事件序列,這是一個極具挑戰的任務。儘管已有許多工作在研究自動故事生成,但是先前的研究要麼侷限於plot planning,要麼只能生成特定領域的故事。該論文探索了開放領域的基於給定故事題目的故事生成任務。研究者提出了plan-and-write的層級生成框架,先生成故事線,再基於此生成整個故事。研究者對比了兩種planning的策略:動態模式是將故事線的planning和故事的文字生成交替進行,而靜態模式是先確定好故事線再生成故事。實驗結果表明,在顯式的故事線planning作用下,系統能生成更多樣、更連貫、更切題的故事,在自動指標和人工評測結果中,都優於沒有planning的對比方法。

27. 翻譯記憶圖的神經機器翻譯

Graph based translation memory for neural machine translation

該論文由騰訊AI Lab主導,與卡內基梅隆大學合作完成,可有效地利用翻譯記憶構建翻譯模型。翻譯記憶對提高統計機器翻譯很有幫助,隨著統計機器翻譯向神經機器翻譯的進化,將翻譯記憶融入到神經翻譯框架已經引起了很多關注。現有的工作中,有的為了保證效率,僅利用了翻譯記憶中的區域性資訊;也有工作利用了翻譯記憶中的全域性資訊,但是降低了效率。該論文提出了一個有效的方法,它可以充分利用翻譯記憶的全域性資訊。它的基本思想是,將包括冗餘詞的序列化翻譯記憶壓縮成一個結構緊湊的圖,然後計算一個基於圖的注意力模型。在6個翻譯任務上的實驗表明,本文提出的方法是有效的:它獲得了比基線系統Transformer更好的效果,而且也比現有的基於翻譯記憶的模型更好。

相關文章