百度15篇論文被AAAI 2019收錄

AI科技大本營發表於2019-01-30

640?wx_fmt=jpeg


1月27日,第33屆 AAAI(AAAI 2019)在美國夏威夷召開,其中百度共有15篇論文被收錄。


AAAI於1979年成立,是國際人工智慧領域的頂級國際會議。這一協會如今在全球已有超過6000名的會員,彙集了全球最頂尖的人工智慧領域專家學者,一直是人工智慧界的研究風向標,在學術界久負盛名。


本屆大會共收到7700餘篇有效投稿,其中7095篇論文進入評審環節,最終有1150篇論文被錄用,錄取率為近年最低僅為16.2%。百度共獲得15篇論文被收錄的成績。其中有5位作者受邀在主會做 Oral 形式報告,另有10位作者將攜論文在主會以 Spotlight Poster 形式做報告。


在百度此次收錄的15篇論文中,內容涉及智慧出行、機器學習、視訊建模、無人駕駛、自然語言處理、智慧醫療等多個領域。


 自然語言處理領域


百度這次被AAAI收錄的論文《Modeling Coherence for Discourse Neural Machine Translation》,提出了一種篇章級別的翻譯模型,能夠使得篇章內的句子之間保持良好的連貫性和一致性。這是由於翻譯一些文件、演講之類的文字時,通常需要慮句子之間的銜接性和連貫性。而傳統的翻譯模型通常都是將一個句子當做單獨的翻譯單元,忽視了句子之間的關聯性。


具體來說,該論文提出了一種多輪解碼方案,在第一輪解碼中單獨生成每個句子的初步翻譯結果,在第二輪解碼中利用第一輪翻譯的結果進行翻譯內容潤色,並且提出使用增強式學習模型來獎勵模型產生篇幅更一致的譯文。最終在演講文字的測試集合上,論文提出的模型不僅能夠提升句子級別1.23 BLEU,同時能夠提升篇章級別2.2 BLEU。通過實驗分析,本文提出的翻譯模型確實能產生篇章更加連貫和一致的句子。


640?wx_fmt=png

 

此模型是基於 Transformer 模型設計的。首先,訓練流程中的一個 batch 為一篇文章中的所有句子,在第一輪解碼中,採用標準的 Transformer 模型生成單個句子的初步翻譯結果。在第二輪解碼中,將第一輪產生的譯文合併成一個句子,構成此篇章翻譯的參考譯文。同時將初步翻譯結果作為一個額外的 Multi-Head Attention 機制,加入到 Decoder 的解碼流程中。通過這個步驟,在第二輪解碼的過程中,在翻譯單個句子時,能夠考察其他句子可能產生的翻譯結果,進而調整當前句子的文字輸出概率,儘量使得翻譯結果更一致。最終利用 Self-critical 的學習機制,鼓勵模型生成篇章一致性的譯文。值得一提的是,不僅僅是第二輪解碼中可以使用增強式學習機制,在第一輪解碼中也可以鼓勵模型產生更一致的譯文。


本文首次在學術和工業界提出解決神經網路翻譯中的篇章一致性和連貫性問題,並且提出了一種通用的解碼框架,通過多輪解碼和增強式學習策略,使得模型能產生良好的篇章連貫和一致性的譯文。同時,本文還提出了若干評估篇章連貫和一致性的評價方法,有利於促進相關的研究工作發展。


目前的線上翻譯引擎基本都是針對單個句子進行解碼翻譯,並不能保證一篇文章翻譯出來後句子之間有很好的連貫性,採用本文提出的方法,能夠使得篇章級別的翻譯文字閱讀起來更流暢,句子之間的連貫性更好。


 無人車駕駛領域


為了能在複雜的城市交通中安全有效地行駛,無人車必須對周圍交通體(機動車,自行車,行人等等)的行為軌跡做出可靠的預測。一個十分重要又具有挑戰性的任務就是探索各種各樣的交通體的不同的行為特徵並能對它們做出及時準確的預測,進而幫助無人車做出合理的行駛決策。


為了解決這個問題,《TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents》的作者提出了基於 LSTM 的路徑預測演算法 TrafficPredict。他們的方法是用例項層來學習個體的運動規律和它們之間的互動,用類別層來學習同一類別的個體的運動的相似性,從而進一步優化對個體的預測結果。


640?wx_fmt=png

 

他們採集了一個複雜路況下的交通資料集,正常行駛的汽車通過 Lidar 採集的連續幀資料經過標註得到。問題設定為觀察交通體[0 : Tobs]時間段內的運動軌跡,預測 [Tobs + 1 : Tpred]的運動軌跡。對於一個時間段的資料,首先把資料組織成一個4D Graph。


這個 Graph 包含兩個層,一個是例項層,一個是類別層。在例項層中,每一個個體看成一個節點,每一幀中個體之間通過邊連線,相鄰幀的同一個體也通過邊連線。在類別層中,同一幀中相同類別的個體把資訊彙總到一個超節點中,超節點會總結經驗,進而反向改善每一個個體的預測結果,相鄰幀的同一個超節點也通過邊連線。4D Graph 通過邊捕捉個體在空間上的互動資訊,在時間上的連續資訊,和在類別上的相似資訊,通過節點和超節點彙總和分析這些資訊。


640?wx_fmt=png


本文提出的方法把多類別交通體的路線預測統一到一個框架之下,通過構建空間和時間維度上的4D Graph,充分利用交通體自身的運動模式和與周圍交通體互動的資訊,並通過超節點總結概括同類別運動相似性來改善個體的結果,從而對每個交通體的軌跡預測精度有了較大提高。另外,本文還發布了多類別體的複雜城市交通的路線資料集。


目前自動駕駛的測試場景都是比較規則和簡單的交通場景:有清晰的車道線,紅綠燈,交通參與體比較單一。但是,很多城市交通,比如中國或印度的城市交通,具有很高的複雜度。尤其在一些十字路口,自行車、三輪車、汽車、公交車互動前進。本文針對多類別體城市交通提出的的路徑預測演算法,為無人車在複雜交通場景下的導航提供了更為精確的指導,進而可以提升自動駕駛系統的安全性。


 視訊建模


深度學習在靜態影像理解上取得了巨大成功,然而高效的視訊時序及空域建模的網路模型尚無定論。不同於已有的基於 CNN+RNN 或者 3D 卷積網路的方法,《StNet: Local and Global Spatial-Temporal Modeling for Action Recognition》 一文提出了兼顧區域性時空聯絡以及全域性時空聯絡的視訊時空聯合建模網路框架 StNet。


具體而言,StNet 將視訊中連續 N 幀影像級聯成一個 3N 通道的“超圖”,然後用 2D 卷積對超圖進行區域性時空聯絡的建模。為了建立全域性時空關聯,StNet 中引入了對多個區域性時空特徵圖進行時域卷積的模組。特別地,我們提出了時序 Xception 模組對視訊特徵序列進一步建模時序依賴。在 Kinetics 動作識別資料集的大量實驗結果表明,StNet 能夠取得 State-of-the-art 的識別效能,同時 StNet 在計算量與準確率的折衷方面表現優異。此外實驗結果驗證了 StNet 學習到的視訊表徵能夠在 UCF101 上有很好的遷移泛化能力。

 

640?wx_fmt=png


StNet 提出了區域性和全域性時空聯絡聯合建模的概念,能得到更具判別力的視訊表徵,有效的提高視訊動作識別的效能。同時,StNet 的設計兼顧了計算量與識別準確率的折衷,具有很好的實用價值。StNet 作為一個 backbone 網路結構,可以應用在用 video2vector、視訊識別等方面。


640?wx_fmt=gif

 

附:被 AAAI 2019收錄的百度15篇論文題目

l Modeling Coherence for Discourse Neural Machine Translation

l Joint Representation Learning for Multi-Modal Transportation Recommendation

l SpHMC: Spectral Hamiltonian Monte Carlo

l StNet: Local and Global Spatial-Temporal Modeling for Action Recognition

l TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents

l Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos

l Addressing the Under-translation Problem from the Entropy Perspective

l Understanding Story Characters, Movie Actors and Their Versatility with Gaussian Representations

l Joint Extraction of Entities and Overlapping Relations using Position-Attentive Sequence Labeling

l Oversampling for Imbalanced Data via Optimal Transport

l Multi-agent Discussion Mechanism for Natural Language Generation

l Sign-Full Random Projections

l Interactive Attention Transfer Network for Cross-domain Sentiment Classification

l Exploiting the Contagious Effect for Employee Turnover Prediction

l Distant Supervision for Relation Extraction with Linear Attenuation Simulation and Non-IID Relevance Embedding

(本文為AI科技大本營投稿文章,轉載請聯絡作者。)

相關文章