今日 Paper | 問答系統;3D人體形狀和姿勢;面部偽造檢測;AdderNet等
目錄
Reading Wikipedia to Answer Open-Domain Questions
Machine Learning from a Continuous Viewpoint
Score and Lyrics-Free Singing Voice Generation
Learning 3D Human Shape and Pose from Dense Body Parts
Face X-ray for More General Face Forgery Detection
Effective Data Augmentation with Multi-Domain Learning GANs
Job Prediction: From Deep Neural Network Models to Applications
Combining Deep Learning and Verification for Precise Object Instance Detection
A Gentle Introduction to Deep Learning for Graphs
AdderNet: Do We Really Need Multiplications in Deep Learning?
基於維基百科的開放域的問答系統
論文名稱:Reading Wikipedia to Answer Open-Domain Questions
作者:Danqi Chen /Adam Fisch /Jason Weston /Antoine Bordes
發表時間:2017/4/28
論文連結:
推薦理由:本文建議使用Wikipedia作為獨特的知識源來解決開放域問題的解答:任何事實類問題的答案都是Wikipedia文章中的文字範圍。
大規模的機器閱讀任務將文件檢索(查詢相關文章)與機器理解文字(識別這些文章的答案範圍)的挑戰結合在一起。作者的方法將基於bigram雜湊和TF-IDF匹配的搜尋元件與經過訓練以檢測Wikipedia段落中的答案的多層遞迴神經網路模型相結合。
作者在多個現有QA資料集上的實驗表明,(1)兩個模組相對於現有同類產品都具有很高的競爭力;(2)使用遠端監督對其組合進行多工學習是解決這一艱鉅任務的有效完整系統。
從持續的角度看機器學習
論文名稱:Machine Learning from a Continuous Viewpoint
作者:E Weinan /Ma Chao /Wu Lei
發表時間:2019/12/30
論文連結:
推薦理由:作為經典的數值分析和統計物理學的精神,作者提出了一種連續的機器學習形式,作為變化和微分積分方程的一個問題。作者證明了常規的機器學習模型和演算法,例如隨機特徵模型,淺層神經網路模型和殘差神經網路模型,都可以作為不同連續公式的特定離散化而全部恢復。
作者還介紹了新模型的示例,例如基於流的隨機特徵模型,以及新演算法(例如平滑粒子法和光譜法)的示例,這些新演算法自然地源於這種連續公式。作者在文中討論瞭如何在此框架下研究泛化誤差和隱式正則化問題。
樂譜和無歌詞歌聲生成
論文名稱:Score and Lyrics-Free Singing Voice Generation
作者:Liu Jen-Yu /Chen Yu-Hua /Yeh Yin-Cheng /Yang Yi-Hsuan
發表時間:2019/12/26
論文連結:
推薦理由:用於唱歌聲音的生成模型主要與“唱歌聲音合成”的任務有關,即,根據樂譜和文字歌詞來產生唱歌聲音波形。
在本文中,作者探索了一種新穎而又具有挑戰性的替代方法:在訓練和推理時間中無需預先分配樂譜和歌詞的情況下演唱語音。特別是,作者提出了三種無條件或弱條件的歌聲生成方案。作者概述了相關的挑戰,並提出瞭解決這些新任務的渠道。這涉及開發用於資料準備的源分離和轉錄模型,用於音訊生成的對抗網路以及用於評估的定製度量。
從密集的身體部位學習3D人體形狀和姿勢
論文名稱:Learning 3D Human Shape and Pose from Dense Body Parts
作者:Zhang Hongwen /Cao Jie /Lu Guo /Ouyang Wanli /Sun Zhenan
發表時間:2019/12/31
論文連結:
推薦理由:儘管透過最新的基於學習的方法獲得了令人鼓舞的結果,但從單眼影像重建3D人體形狀和姿勢仍具有挑戰性。常見的不對齊是由於以下事實:從影像到模型空間的對映是高度非線性的,並且人體模型的基於旋轉的姿勢表示易於導致關節位置的漂移。
在本文中,作者研究了從人體部位的密集對應關係中學習3D人體形狀和姿勢的問題,並提出了分解和聚合網路(DaNet)來解決這些問題。DaNet採用密集的對應貼圖作為中間表示,以密集地在2D畫素和3D頂點之間建立一座橋樑,以促進2D到3D對映的學習。DaNet的預測模組被分解為一個全域性流和多個區域性流,以分別實現形狀和姿勢預測的全域性和細粒度感知。來自本地流的訊息被進一步聚合以增強對基於旋轉的姿勢的魯棒性預測,其中提出了位置輔助旋轉特徵細化策略以利用人體關節之間的空間關係。此外,還引入了基於零件的剔除(PartDrop)策略,以在訓練過程中從中間表示中剔除密集資訊,從而鼓勵網路專注於更多互補的身體部位以及相鄰的位置特徵。作者方法的有效性在室內和實際資料集(包括Human3.6M,UP3D和DensePose-COCO資料集)上均得到驗證。
實驗結果表明,與以前的最新方法相比,該方法顯著提高了重建效能。我們的程式碼將透過此 URL( )公開提供。
面部X射線,可進行更一般的面部偽造檢測
論文名稱:Face X-ray for More General Face Forgery Detection
作者:Li Lingzhi /Bao Jianmin /Zhang Ting /Yang Hao /Chen Dong /Wen Fang /Guo Baining
發表時間:2019/12/31
論文連結:
推薦理由:在本文中,作者提出了一種新穎的影像表示形式,稱為面部X射線,用於檢測面部影像中的偽造。輸入的面部影像的面部X射線是灰度影像,可顯示輸入影像是否可以分解為來自不同來源的兩個影像的混合。它透過顯示偽造影像的混合邊界和不存在真實影像的混合來實現。
作者觀察到,大多數現有的面部操作方法都有一個共同的步驟:將更改後的面部混合到現有的背景影像中。因此,面部X射線提供了一種檢測大多數現有面部操縱演算法所產生的偽造的有效方法。面部X射線的一般意義是僅假設存在混合步驟,並且不依賴於與特定面部操作技術相關的偽影的任何知識。事實上,確實可以訓練用於計算面部X射線的演算法且無需使用任何最新的面部操縱方法生成的偽造影像。大量的實驗表明,當將X射線應用於由看不見的面部操縱技術產生的偽造時,面部X射線仍然有效,而大多數現有的面部偽造檢測演算法的效能都會明顯下降。
利用多域學習GANs實現有效的資料增強
論文名稱:Effective Data Augmentation with Multi-Domain Learning GANs
作者:Yamaguchi Shin'ya /Kanai Sekitoshi /Eda Takeharu
發表時間:2019/12/25
論文連結:
推薦理由:這篇論文考慮的是資料增強的問題。
這篇論文提出了一種有效的基於生成對抗網路)的資料增強方法,其主要思想是透過使用多領域學習GAN將外部資料所包含的知識匯入到目標模型中。多領域學習GAN能夠同時學習外部資料集和目標資料集,並能夠為目標任務生成高保真度和多樣性強的新樣本。文章表明即使只有極少量的目標資料集,研究人員也可以透過使用這些新生成的樣本來獲得目標任務的準確模型。這篇論文在CIFAR-100, FGVC-Aircraft和Indoor Scene Recognition這三個資料集上評估了其提出的資料增強方法,表明了它具有更好的分類準確性,並且能夠提高所生成樣本的質量。
工作預測:從深度神經網路模型到應用
論文名稱:Job Prediction: From Deep Neural Network Models to Applications
作者:Van Huynh Tin /Van Nguyen Kiet /Nguyen Ngan Luu-Thuy /Nguyen Anh Gia-Tuan
發表時間:2019/12/27
論文連結:
推薦理由:這篇論文考慮的是基於簡歷資訊判斷工作勝任程度的問題。
如何根據簡歷上的資訊,例如學歷、技能描述等,來判斷一份工作是否適合求職者是一個困難的自然語言處理問題。反過來,公司挑選最適合這份工作的人才也是困難的。這篇論文嘗試利用不同的深度神經網路模型來學習預測職業,這些模型包括TextCNN,Bi-GRU-LSTM-CNN,以及Bi-GRU-CNN,並用到了基於網際網路職業資料集訓練的多種預訓練詞嵌入。這篇論文還提出一種簡單但高效的整合模型以包含不同的深度神經網路模型。實驗結果表明,所提方法獲得了最高為72.71%的F1值。
這篇論文試圖利用自然語言處理的技術來幫助網際網路上的求職者找到更適合自己的職業發展方向。
結合深度學習和驗證進行精確的物件例項檢測
論文名稱:Combining Deep Learning and Verification for Precise Object Instance Detection
作者:Ancha Siddharth /Nan Junyu /Held David
發表時間:2019/12/27
論文連結:
推薦理由:深度學習物件檢測器通常會以很高的置信度返回誤報。儘管它們最佳化了通用檢測效能,例如平均平均精度(mAP),但它們並不是為可靠性而設計的。對於可靠的檢測系統,如果進行了高置信度檢測,作者將希望高度確定確實已檢測到物件。為此,作者開發了一套驗證測試,建議的檢測必須透過該測試才能被接受。
作者建立了一個理論框架,可以證明在某些假設下,作者的驗證測試不會接受任何誤報。基於此框架的近似值,作者提出了一種實用的檢測系統,該系統可以高精度地驗證基於機器學習的物件檢測器的每次檢測是否正確。作者表明,這些測試可以提高基本檢測器的整體精度,並且公認的示例很有可能是正確的。這允許檢測器在高精度狀態下操作,因此可以作為可靠的例項檢測方法用於機器人感知系統。
關於圖的深度學習的簡要介紹
論文名稱:A Gentle Introduction to Deep Learning for Graphs
作者:Bacciu Davide /Errica Federico /Micheli Alessio /Podda Marco
發表時間:2019/12/29
論文連結:
推薦理由:圖形資料的自適應處理是一個長期存在的研究主題,最近已被整合為深度學習社群的主要興趣主題。相關研究的數量和廣度迅速增加是以缺乏知識的系統化和對早期文獻的關注為代價的。
本文中作者的這項工作旨在作為圖的深度學習領域的教程介紹。相對於對最新文獻的闡釋,它主張對主要概念和體系結構方面進行一致且漸進的介紹,讀者可參考其中的可用調查。本文對問題進行了自上而下的研究,介紹了一種基於區域性和迭代方法來結構化資訊處理的圖形表示學習的廣義公式。它介紹了基本的構建基塊,可以將其組合起來設計出新穎而有效的圖形神經模型。方法論的闡述是對本領域有趣的研究挑戰和應用的討論的補充。
【北大/諾亞/鵬城/悉大】AdderNet:能否讓深度學習擺脫乘法運算?
論文名稱:AdderNet: Do We Really Need Multiplications in Deep Learning?
作者:Chen Hanting /Wang Yunhe /Xu Chunjing /Shi Boxin /Xu Chao /Tian Qi /Xu Chang
發表時間:2019/12/31
論文連結:
推薦理由:這是一篇來自華為諾亞方舟實驗室的論文,於2020年1月1日上線arXiv。本文探究的目標為更高效的深度卷積神經網路。(似乎稱作“模型壓縮”不太妥當?因為引數量、運算量、引數精度都未減少,但是將乘法替代為加法為推斷效率提供了極大的增長空間)
為了提升深度神經網路的執行效率、減少不必要的運算,常見的方法有網路剪枝、知識蒸餾等等。本文則另闢蹊徑,嘗試讓卷積神經網路擺脫乘法而只使用高效的加法運算。
卷積神經網路的實現中,卷積運算是透過卷積核與輸入特徵的互相關(cross-correlation)運算實現的,而這涉及大量浮點數的乘法運算——要知道,計算機完成一次32位浮點乘法運算往往是加法運算的幾倍!如果能將互相關運算替代為效果相近而僅涉及加法的運算,豈不是可以極大地提升CNN的執行效率?
32位浮點運算的相對能耗
那麼問題來了:互相關的本質是什麼呢?是衡量卷積核與輸入特徵的相似度。這裡,作者大膽地使用L1距離的相反數代替互相關運算,作為衡量相似度的另一種途徑。
使用互相關實現的卷積運算,X為輸入特徵,F為卷積核,S()為乘法,Y為層的輸出
將S()換為L1距離
那麼問題又來了:模型如何透過反向傳播最佳化?如果對L1距離求導,那麼結果只能是0和±1(認為L1距離等於0時導數為0),相當於對X(m+i,n+j,k)-F(i,j,k,t)求的符號函式——這並不能很好地使得模型向最優的方向最佳化。因此,作者在這裡使用了X與F的差作為每層“卷積”核的梯度進行反傳:
同樣,X也需要梯度來回傳至上層,而且與F的梯度不同的是:這個梯度還會影響到上面的所有的層(存在梯度爆炸的可能性),更需要精心的設計。因此,在這裡作者使用了HardTanh(即將y=x用±1截斷,防止梯度過大)使得梯度值(F-X)處於±1範圍之內。
除此之外,本文還提出了針對加法網路的自適應性學習率調整策略。將所有卷積層替換為加法層的AdderNet-ResNet50在ImageNet上達到了74.9%的Top-1準確率和91.7%的Top-5準確率(使用乘法運算實現卷積的ResNet50準確率才不過76.2%和92.9%),在效能損失極少的條件下大大地減少了運算時間。
注:儘管卷積層完全未使用乘法,AdderNet-ResNet50仍然在層間採用了涉及乘法運算的批歸一化(Batch Normalization)(畢竟L1距離的相反數一定是非正的)。但是與卷積層的乘法運算相比,批歸一化的乘法運算量完全不在一個數量級上,因此可以被忽略不計。
相關文章:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2671775/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- [譯] 提取圖片中的文字、人臉或者條形碼 —— 形狀檢測APIAPI
- 人員入侵檢測系統
- 如何用 Python 檢測偽造的視訊Python
- 系統狀態統計和檢視
- 網路故障智慧檢測系統和小型路由器檢測系統問題與思路路由器
- Linux中系統狀態檢測命令Linux
- 單人的姿態檢測|tensorflow singlepose
- 人臉檢測背景介紹和發展現狀
- 系統狀況檢測軟體:System Dashboard Pro for Mac中文版Mac
- 人員工服穿戴檢測系統
- 【人臉偽造檢測後門攻擊】Imperceptible Face Forgery Attack via Adversarial Semantic Mask
- Fragment巢狀FragmentViewPager 正常使用姿勢Fragment巢狀Viewpager
- 人員摔倒識別預警系統 人員跌倒檢測系統
- System Dashboard for Mac(Mac系統狀況檢測工具)Mac
- 【幣修】《系統思考》的正確姿勢
- 人臉活體檢測
- NLP教程(7) - 問答系統
- SOA系統架構問答架構
- 【3D】姿態檢測網路PoseCNN復現過程記錄3DCNN
- 辦公室人員離崗識別檢測系統
- 10款深度偽造軟體
- 評估統計演算法在銀行偽造鈔票檢測中的價值演算法
- 製造執行系統(MES)的功能、優勢和整合
- 面部識別必看!5篇頂級論文了解如何實現人臉反欺詐、跨姿勢識別
- 功能開發的測試姿勢
- Mediapipe入門——搭建姿態檢測模型並實時輸出人體關節點3d座標API模型3D
- [計算機視覺]人臉應用:人臉檢測、人臉對比、五官檢測、眨眼檢測、活體檢測、疲勞檢測計算機視覺
- 讓問答更自然:基於拷貝和檢索機制的自然答案生成系統研究
- 檢索增強生成(RAG)實踐:基於LlamaIndex和Qwen1.5搭建智慧問答系統AIIndex
- 智慧問答機器人機器人
- 造車新勢力研究系列:智慧化汽車三問三答(附下載)
- 3D物體檢測、行為預測和運動檢測全涵蓋,一文解析鐳射雷達中時序融合的研究現狀和發展方向3D
- 偽AP檢測技術研究
- 檢索式問答系統的語義匹配模型(神經網路篇)模型神經網路
- 車間人員作業行為智慧檢測系統
- 系統狀態檢視工具Sysstat
- 開源姿勢識別軟體
- 3D唯美奇幻和風《晴明傳》今日公測開啟3D