今日 Paper | 問答系統；3D人體形狀和姿勢；面部偽造檢測；AdderNet等

AIBigbull2050發表於2020-01-03

原文網址 : http://blog.itpub.net/69946223/viewspace-2671775/

基於維基百科的開放域的問答系統

論文名稱：Reading Wikipedia to Answer Open-Domain Questions

作者：Danqi Chen /Adam Fisch /Jason Weston /Antoine Bordes

發表時間：2017/4/28

論文連結： https://paper.yanxishe.com/review/7918

推薦理由：本文建議使用Wikipedia作為獨特的知識源來解決開放域問題的解答：任何事實類問題的答案都是Wikipedia文章中的文字範圍。

大規模的機器閱讀任務將文件檢索（查詢相關文章）與機器理解文字（識別這些文章的答案範圍）的挑戰結合在一起。作者的方法將基於bigram雜湊和TF-IDF匹配的搜尋元件與經過訓練以檢測Wikipedia段落中的答案的多層遞迴神經網路模型相結合。

作者在多個現有QA資料集上的實驗表明，（1）兩個模組相對於現有同類產品都具有很高的競爭力；（2）使用遠端監督對其組合進行多工學習是解決這一艱鉅任務的有效完整系統。

今日 Paper | 問答系統；3D人體形狀和姿勢；面部偽造檢測；AdderNet等

從持續的角度看機器學習

論文名稱：Machine Learning from a Continuous Viewpoint

作者：E Weinan /Ma Chao /Wu Lei

發表時間：2019/12/30

論文連結： https://paper.yanxishe.com/review/7942

推薦理由：作為經典的數值分析和統計物理學的精神，作者提出了一種連續的機器學習形式，作為變化和微分積分方程的一個問題。作者證明了常規的機器學習模型和演算法，例如隨機特徵模型，淺層神經網路模型和殘差神經網路模型，都可以作為不同連續公式的特定離散化而全部恢復。

作者還介紹了新模型的示例，例如基於流的隨機特徵模型，以及新演算法（例如平滑粒子法和光譜法）的示例，這些新演算法自然地源於這種連續公式。作者在文中討論瞭如何在此框架下研究泛化誤差和隱式正則化問題。

樂譜和無歌詞歌聲生成

論文名稱：Score and Lyrics-Free Singing Voice Generation

作者：Liu Jen-Yu /Chen Yu-Hua /Yeh Yin-Cheng /Yang Yi-Hsuan

發表時間：2019/12/26

論文連結： https://paper.yanxishe.com/review/7944

推薦理由：用於唱歌聲音的生成模型主要與“唱歌聲音合成”的任務有關，即，根據樂譜和文字歌詞來產生唱歌聲音波形。

在本文中，作者探索了一種新穎而又具有挑戰性的替代方法：在訓練和推理時間中無需預先分配樂譜和歌詞的情況下演唱語音。特別是，作者提出了三種無條件或弱條件的歌聲生成方案。作者概述了相關的挑戰，並提出瞭解決這些新任務的渠道。這涉及開發用於資料準備的源分離和轉錄模型，用於音訊生成的對抗網路以及用於評估的定製度量。

從密集的身體部位學習3D人體形狀和姿勢

論文名稱：Learning 3D Human Shape and Pose from Dense Body Parts

作者：Zhang Hongwen /Cao Jie /Lu Guo /Ouyang Wanli /Sun Zhenan

發表時間：2019/12/31

論文連結： https://paper.yanxishe.com/review/7941

推薦理由：儘管通過最新的基於學習的方法獲得了令人鼓舞的結果，但從單眼影像重建3D人體形狀和姿勢仍具有挑戰性。常見的不對齊是由於以下事實：從影像到模型空間的對映是高度非線性的，並且人體模型的基於旋轉的姿勢表示易於導致關節位置的漂移。

在本文中，作者研究了從人體部位的密集對應關係中學習3D人體形狀和姿勢的問題，並提出了分解和聚合網路（DaNet）來解決這些問題。DaNet採用密集的對應貼圖作為中間表示，以密集地在2D畫素和3D頂點之間建立一座橋樑，以促進2D到3D對映的學習。DaNet的預測模組被分解為一個全域性流和多個區域性流，以分別實現形狀和姿勢預測的全域性和細粒度感知。來自本地流的訊息被進一步聚合以增強對基於旋轉的姿勢的魯棒性預測，其中提出了位置輔助旋轉特徵細化策略以利用人體關節之間的空間關係。此外，還引入了基於零件的剔除（PartDrop）策略，以在訓練過程中從中間表示中剔除密集資訊，從而鼓勵網路專注於更多互補的身體部位以及相鄰的位置特徵。作者方法的有效性在室內和實際資料集（包括Human3.6M，UP3D和DensePose-COCO資料集）上均得到驗證。

實驗結果表明，與以前的最新方法相比，該方法顯著提高了重建效能。我們的程式碼將通過此 URL（ https://hongwenzhang.github.io/dense2mesh/ ）公開提供。

面部X射線，可進行更一般的面部偽造檢測

論文名稱：Face X-ray for More General Face Forgery Detection

作者：Li Lingzhi /Bao Jianmin /Zhang Ting /Yang Hao /Chen Dong /Wen Fang /Guo Baining

發表時間：2019/12/31

論文連結： https://paper.yanxishe.com/review/7940

推薦理由：在本文中，作者提出了一種新穎的影像表示形式，稱為面部X射線，用於檢測面部影像中的偽造。輸入的面部影像的面部X射線是灰度影像，可顯示輸入影像是否可以分解為來自不同來源的兩個影像的混合。它通過顯示偽造影像的混合邊界和不存在真實影像的混合來實現。

作者觀察到，大多數現有的面部操作方法都有一個共同的步驟：將更改後的面部混合到現有的背景影像中。因此，面部X射線提供了一種檢測大多數現有面部操縱演算法所產生的偽造的有效方法。面部X射線的一般意義是僅假設存在混合步驟，並且不依賴於與特定面部操作技術相關的偽影的任何知識。事實上，確實可以訓練用於計算面部X射線的演算法且無需使用任何最新的面部操縱方法生成的偽造影像。大量的實驗表明，當將X射線應用於由看不見的面部操縱技術產生的偽造時，面部X射線仍然有效，而大多數現有的面部偽造檢測演算法的效能都會明顯下降。

利用多域學習GANs實現有效的資料增強

論文名稱：Effective Data Augmentation with Multi-Domain Learning GANs

作者：Yamaguchi Shin'ya /Kanai Sekitoshi /Eda Takeharu

發表時間：2019/12/25

論文連結： https://paper.yanxishe.com/review/7934

推薦理由：這篇論文考慮的是資料增強的問題。

這篇論文提出了一種有效的基於生成對抗網路）的資料增強方法，其主要思想是通過使用多領域學習GAN將外部資料所包含的知識匯入到目標模型中。多領域學習GAN能夠同時學習外部資料集和目標資料集，並能夠為目標任務生成高保真度和多樣性強的新樣本。文章表明即使只有極少量的目標資料集，研究人員也可以通過使用這些新生成的樣本來獲得目標任務的準確模型。這篇論文在CIFAR-100, FGVC-Aircraft和Indoor Scene Recognition這三個資料集上評估了其提出的資料增強方法，表明了它具有更好的分類準確性，並且能夠提高所生成樣本的質量。

工作預測：從深度神經網路模型到應用

論文名稱：Job Prediction: From Deep Neural Network Models to Applications

作者：Van Huynh Tin /Van Nguyen Kiet /Nguyen Ngan Luu-Thuy /Nguyen Anh Gia-Tuan

發表時間：2019/12/27

論文連結： https://paper.yanxishe.com/review/7937

推薦理由：這篇論文考慮的是基於簡歷資訊判斷工作勝任程度的問題。

如何根據簡歷上的資訊，例如學歷、技能描述等，來判斷一份工作是否適合求職者是一個困難的自然語言處理問題。反過來，公司挑選最適合這份工作的人才也是困難的。這篇論文嘗試利用不同的深度神經網路模型來學習預測職業，這些模型包括TextCNN，Bi-GRU-LSTM-CNN，以及Bi-GRU-CNN，並用到了基於網際網路職業資料集訓練的多種預訓練詞嵌入。這篇論文還提出一種簡單但高效的整合模型以包含不同的深度神經網路模型。實驗結果表明，所提方法獲得了最高為72.71%的F1值。

這篇論文試圖利用自然語言處理的技術來幫助網際網路上的求職者找到更適合自己的職業發展方向。

結合深度學習和驗證進行精確的物件例項檢測

論文名稱：Combining Deep Learning and Verification for Precise Object Instance Detection

作者：Ancha Siddharth /Nan Junyu /Held David

發表時間：2019/12/27

論文連結： https://paper.yanxishe.com/review/7928

推薦理由：深度學習物件檢測器通常會以很高的置信度返回誤報。儘管它們優化了通用檢測效能，例如平均平均精度（mAP），但它們並不是為可靠性而設計的。對於可靠的檢測系統，如果進行了高置信度檢測，作者將希望高度確定確實已檢測到物件。為此，作者開發了一套驗證測試，建議的檢測必須通過該測試才能被接受。

作者建立了一個理論框架，可以證明在某些假設下，作者的驗證測試不會接受任何誤報。基於此框架的近似值，作者提出了一種實用的檢測系統，該系統可以高精度地驗證基於機器學習的物件檢測器的每次檢測是否正確。作者表明，這些測試可以提高基本檢測器的整體精度，並且公認的示例很有可能是正確的。這允許檢測器在高精度狀態下操作，因此可以作為可靠的例項檢測方法用於機器人感知系統。

關於圖的深度學習的簡要介紹

論文名稱：A Gentle Introduction to Deep Learning for Graphs

作者：Bacciu Davide /Errica Federico /Micheli Alessio /Podda Marco

發表時間：2019/12/29

論文連結： https://paper.yanxishe.com/review/7947

推薦理由：圖形資料的自適應處理是一個長期存在的研究主題，最近已被整合為深度學習社群的主要興趣主題。相關研究的數量和廣度迅速增加是以缺乏知識的系統化和對早期文獻的關注為代價的。

本文中作者的這項工作旨在作為圖的深度學習領域的教程介紹。相對於對最新文獻的闡釋，它主張對主要概念和體系結構方面進行一致且漸進的介紹，讀者可參考其中的可用調查。本文對問題進行了自上而下的研究，介紹了一種基於區域性和迭代方法來結構化資訊處理的圖形表示學習的廣義公式。它介紹了基本的構建基塊，可以將其組合起來設計出新穎而有效的圖形神經模型。方法論的闡述是對本領域有趣的研究挑戰和應用的討論的補充。

【北大/諾亞/鵬城/悉大】AdderNet：能否讓深度學習擺脫乘法運算？

論文名稱：AdderNet: Do We Really Need Multiplications in Deep Learning?

作者：Chen Hanting /Wang Yunhe /Xu Chunjing /Shi Boxin /Xu Chao /Tian Qi /Xu Chang

發表時間：2019/12/31

論文連結： https://paper.yanxishe.com/review/7948

推薦理由：這是一篇來自華為諾亞方舟實驗室的論文，於2020年1月1日上線arXiv。本文探究的目標為更高效的深度卷積神經網路。（似乎稱作“模型壓縮”不太妥當？因為引數量、運算量、引數精度都未減少，但是將乘法替代為加法為推斷效率提供了極大的增長空間）

為了提升深度神經網路的執行效率、減少不必要的運算，常見的方法有網路剪枝、知識蒸餾等等。本文則另闢蹊徑，嘗試讓卷積神經網路擺脫乘法而只使用高效的加法運算。

卷積神經網路的實現中，卷積運算是通過卷積核與輸入特徵的互相關（cross-correlation）運算實現的，而這涉及大量浮點數的乘法運算——要知道，計算機完成一次32位浮點乘法運算往往是加法運算的幾倍！如果能將互相關運算替代為效果相近而僅涉及加法的運算，豈不是可以極大地提升CNN的執行效率？

32位浮點運算的相對能耗

那麼問題來了：互相關的本質是什麼呢？是衡量卷積核與輸入特徵的相似度。這裡，作者大膽地使用L1距離的相反數代替互相關運算，作為衡量相似度的另一種途徑。

今日 Paper | 問答系統；3D人體形狀和姿勢；面部偽造檢測；AdderNet等

使用互相關實現的卷積運算，X為輸入特徵，F為卷積核，S()為乘法，Y為層的輸出

今日 Paper | 問答系統；3D人體形狀和姿勢；面部偽造檢測；AdderNet等

將S()換為L1距離

那麼問題又來了：模型如何通過反向傳播優化？如果對L1距離求導，那麼結果只能是0和±1（認為L1距離等於0時導數為0），相當於對X(m+i,n+j,k)-F(i,j,k,t)求的符號函式——這並不能很好地使得模型向最優的方向優化。因此，作者在這裡使用了X與F的差作為每層“卷積”核的梯度進行反傳：今日 Paper | 問答系統；3D人體形狀和姿勢；面部偽造檢測；AdderNet等

同樣，X也需要梯度來回傳至上層，而且與F的梯度不同的是：這個梯度還會影響到上面的所有的層（存在梯度爆炸的可能性），更需要精心的設計。因此，在這裡作者使用了HardTanh（即將y=x用±1截斷，防止梯度過大）使得梯度值(F-X)處於±1範圍之內。

除此之外，本文還提出了針對加法網路的自適應性學習率調整策略。將所有卷積層替換為加法層的AdderNet-ResNet50在ImageNet上達到了74.9%的Top-1準確率和91.7%的Top-5準確率（使用乘法運算實現卷積的ResNet50準確率才不過76.2%和92.9%），在效能損失極少的條件下大大地減少了運算時間。

注：儘管卷積層完全未使用乘法，AdderNet-ResNet50仍然在層間採用了涉及乘法運算的批歸一化（Batch Normalization）（畢竟L1距離的相反數一定是非正的）。但是與卷積層的乘法運算相比，批歸一化的乘法運算量完全不在一個數量級上，因此可以被忽略不計。