本文從深度推理學習中的圖網絡與關係表徵入手介紹相關 NeurIPS 2018 論文。
1. 介紹(Introduction)
作者簡介:Angulia Yang 畢業於新加坡國立大學,目前從事人工智慧相關計算機視覺 (Computer Vision) 的研究與開發工作,主要工作方向集中為遷移學習與語義分割,近期對強化學習與生成模型進展也有持續關注。在工程師的角色之外,我也是機器之心的一枚業餘分析師與撰稿人,對程式設計技術與計算機視覺前沿工作保持時刻關注,通過文字與大家分享我對前沿工作的剖析和新技術的理解,並從中收穫啟發與靈感。一直相信 AI 技術的產生與發展不是壁壘與掠奪,而是互助與分享,AI For The Greater Goods of Everyone。
Angulia Yang 機器之心個人主頁:https://www.jiqizhixin.com/users/9cfaced6-c84b-45bf-bfc4-861e14f74742
今年的 NeurIPS 2018 話題感滿滿,改名風波不斷,開發註冊 11 分鐘門票就被搶光,到歷史最高紀錄的 4856 份投稿,最終會議錄取了 1011 篇論文,其中 Spotlight 168 篇 (3.5%),oral 論文 30 篇 (0.6%)詳細資料統計可以參考我們以前的文章。
針對這一千多篇 NeurIPS 2018 的錄取文章,目前會議官方僅僅只放出了它們的題目與摘要,所以本文作者爬取了所有的文章題目,並且利用詞雲(Word Cloud)進行了錄取文章中關鍵詞的提取和統計,得到了如下的詞圖:
圖 0. NeurIPS 文章標題詞圖。
根據詞圖不難看出,深度學習與神經網路仍然是今年 NeurIPS 獲選文章中的主旋律,強化學習(Reinforcement Learning),貝葉斯(Bayesian),生成模型(Generative Model)也較往年看仍持續了很高的關注度。然而除卻傳統熱點,今年圖(Graph)與表徵學習(Representation)在接收文章中表現出很強勢的上升勢頭和關注度,可以推想,深度網路在作為極強大的特徵抽取工具的同時,在複雜的學習任務中,如何利用它進行高效的特徵表示,以及如何有效地獲取和利用上下文關聯資訊,這些方向獲得了來自學界的更多關注和探索。本文側重關注今年關鍵詞中提升較為明顯的圖(Graph)與表徵學習(Representation)應用在視覺任務上的相關工作。筆者分別從兩個大的話題下挑選了幾篇比較有特點的文章進行詳細介紹(文章來源於作者提前釋出在 arxiv 上的預印版,可能也會與之後的官方版本有小小的出入),此外有部分文章由於篇幅緣故或是在截稿之前還未在 arxiv 等網站放出預印版,但是本身也有不錯的亮點,文章也進行了簡要的總結和閱讀建議。
作者注:文章篇幅有限,挑選的文章也有相對的作者個人偏好和研究興趣側重,所以非常抱歉沒有能夠涵蓋自然語言處理、純優化演算法討論、貝葉斯學習以及另外一些視覺方面的好文章,大家可以關注機器之心的 NeurIPS18 單篇文章分享。
2. 圖網絡(Graph Network)
論文:Out of the box reasoning with graph convolutional nets for factual visual question answering
論文連結:https://arxiv.org/abs/1811.00538
看圖問答(Visual Question Answering,VQA)是根據給定的影像準確回答對應問題的一類綜合任務,它同時要求演算法有能力分析理解影像的內容,並且對提出的問題進行語義抽取、關鍵知識解析。較為常見的影像問答(Visual Question Answering)可以直接從影像內容獲取到問題的答案無須推理過程,然而基於事實的影像問答(Fact-based Visual Question Answering, FVQA)需要根據問題中的文字表述結合,問題不再直接包含答案內容,而是在問題中提供一個事實(Fact)與相應的推理關係(Relation), 從而能夠對映到答案本身的實體上,即相較於看圖問答(VQA),事實影像問答(FVQA)多了一個推斷(Reasoning)的過程。因此基於事實的影像問答任務不僅包含影像與相應問題及其答案的語料,還攜帶了一個數量巨大的知識庫(Knowledge Database)裡面包括了從各個來源提取到的事實(Fact),先前提出的方法即是基於深度學習在龐大的知識庫中進行篩選,得到最終能夠直接對映到問題答案的事實(Fact)實體,另一部分分支網路則對影像進行必要的分析和識別,最終匹配篩選好的事實和影像分析結果來得到問題的答案,兩個學習過程通常來說也是非同步的。然而 NeurIPS 2018 這篇「out of the box reasoning with graph convolutional nets for factual visual question answering」工作提出了基於圖卷積的網路試圖同步學習事實上下文的推理過程與影像內容理解,之前深度網路篩選事實的這一訓練過程用圖卷積網路代替它成為一個端到端的推理系統,基於此思想,文章最終取得的準確度比之前的 State of the art 工作高出 7%。
圖 1. FVQA 資料集格式以及問答結果。
基於事實的影像問答任務(FVQA)輸入資料由成對的影像與其對應的問題,外加包含大量事實的知識庫(Knowledge Base, KB),影像均為常見的 RGB 彩圖,問題則是簡單的短句問句,值得一提的是額外的事實(Fact)在知識庫中以形如 f=(x,y,r) 的三元組來表示,x 指代影像中的實體資訊,y 指代屬性或者短語,r 則是關係介詞(比如從屬關係,是非關係,位置關係等)。
文章提出的方法由兩大模組構成:事實追溯(Fact Retrieval)與答案預測(Answer Prediction)。
圖 2. 網路結構圖,左邊為事實追溯模組,右邊部分為答案預測。
在第一個模組中,首先得到處理後事實(Fact)、影像中的視覺概念(Visual Concept)與問題(Question)的 Glove 詞嵌入(Glove Embeddings)資訊,之後計算 Fact 與二者之間的餘弦相關性(Cosine Similarity)並按照相關性對追溯到的 Fact 進行排序,同時取正相關的前一百條事實(Top-rank 100 Fact)作為一個初篩的小型知識庫,之後根據 LSTM 處理後提取出來的問題中的關係(Relation in Question)作為 Ground-Truth 進一步提取過濾符合該關係下的 Facts,得到最終的相關實體集合 E(Relevant entities under certain relation),可表示為:
作者注:記得上一段提過一條事實(fact)是一個(x,y,r)的三元組合,由於關係 r 已經確定,剩下只是同樣關係下的 x, y 元素組合。
至此第一模組類似於預處理和預篩選的功能全部完成。
進入第二個答案預測(Answer Prediction)的模組,將影像中的視覺概念(Visual Concept)與問題的 Glove 詞嵌入表示(Glove Embeddings)以及相關事實的詞嵌入表示作為三部分的特徵進行連線形成完整的一條大特徵實體 e(feature entity), e 則代表圖卷積網路(Graph Convolution Network, GCN)中的一個節點(Node),由兩個隱層的 GCN 與一層 MLP 形成的網路進行訓練,網路採用隨機梯度下降(SGD)與交叉熵損失(Cross-entropy Loss)進行最終的答案預測。
圖 3. FVQA 實驗結果,事實條目取 rank-100 時得到最高準確率。
綜合看來這篇文章挑選的任務是非常有趣的,相較於以往的影像問答任務,FVQA 在問題的設計中新增了需要進行關係分析與推理(reason)的部分,在影像理解和自然語言處理方面是一個非常有意義的跨模態任務,而文章採用一種端到端(end-to-end)的形式把涉及到的資料輸入做了一個特徵拼接,同時用圖卷積網路介入嘗試完成推理過程,並在該任務上達到了 state of the art,這些都是不錯的亮點。但是稍有不足之處在於採用圖卷積網路所做的『推理』仍然是功能非常有限,更多隻是在基於 LSTM 的特徵提取上做了一個分類工作,並沒有太看到利用圖的聯通特性進行更多有效的推理過程,以及在第一部分處理過程中也變相的進行了知識庫中的事實篩選,且其中部分篩選器目前還是獨立於整個系統之外的,無法實現真正意義上的端到端學習訓練。
論文:GloMo: Unsupervisedly Learned Relational Graphs (推薦)
論文連結:https://arxiv.org/pdf/1806.05662.pdf
現今深度學習時代下的遷移學習(Transfer Learning)在自然語言處理(NLP)或是視覺任務(CV)中都發揮著非常顯著的作用,如同之前有名的畫風遷移(Style Transfer)應用就是遷移學習的一個直觀應用。遷移學習的過程通常為:在較成熟的任務 A 中的網路裡學到資料的特徵表達,然後將特徵用於學習新的任務 B,使得新任務的訓練變得更為容易。
圖 4. 傳統遷移學習的特徵遷移過程。
從整個過程中我們也不難體會到遷移學習涉及的關鍵就是如何從資料中抽取學習到通用性很強的特徵,GLoMo: Unsupervisedly Learned Relational Graphs 這篇文章看到了圖(Graph)在關係學習中的優勢,提出了名為 GLoMo(Graphs from Low-level unit Modeling)的框架,意在學習成對的資料(Pair Data Units)之間潛在的依賴關係構成的圖,這樣的潛在關聯圖(Latent Relational Graph)意在從大量的無標籤資料中學習到一個關聯矩陣(Affinity Matrix),整體框架如下圖所示,不同於之前傳統遷移學習框架在不同任務之間進行特徵的直接遷移使用,GLoMo 通過大量的無標籤資料訓練一個神經網路輸出得到最終的一個關係圖(Latent Graph),利用遷移過來的關係圖與任務本身學到的特徵相乘得到結構性加強的特徵,從而對下半程的任務訓練進行效果加強。這樣的遷移學習機制不僅可以用圖中的每個節點更好的表示資料的語義資訊,同時也使學習到的特徵具有結構感知的能力,將學習到各個節點的互動資訊存在圖中,最終 GLoMo 也在影像問答(Image Question Answering),自然語言推演(Natural Language Inference),情感分析(Sentiment Analysis),影像分類(Image Classification)等 NLP 與 CV 任務中均取得了不錯的成績,以證明 GLoMo 的圖狀結構化資訊遷移框架應用在不同的任務上都是非常有幫助意義的。
圖 5. GLoMo 遷移學習過程, 特徵利用圖網絡在主要學習的 TaskB 上進行了特徵加強。
接下來我們具體看一看 GLoMo 的一個完整學習流程:
圖 6. GLoMo 網路結構流程圖。
GLoMo 整體由特徵預測(Feature Predictor),圖預測(Graph Predictor),下游任務模型(Downstream task model 可認為是整個學習任務的主要模型)三個部分組成,通過無監督學習與特徵遷移兩個階段將它們串聯起來。當處於無監督學習的階段時,特徵預測器與圖預測器進行共同訓練從而得到上下文資訊的一個預測結果,同時 RNN 解碼器應用於特徵預測的所有位置得到輸出,待到特徵遷移階段,圖預測的權重進行凍結並且抽取出相應的圖網絡特徵輸出,作為權重與特徵預測器產生的特徵進行加權取和操作(weighted sum)為下游的主要任務模型服務。
GLoMo 在多個獨立任務的資料集下都進行了關係圖的遷移實驗,最終結果都取得了一定的提升:
圖 7. GLoMo 在多項 NLP 相關任務的 benchmark 上取得的結果。
GLoMo 這篇以無監督的方式學習資料中潛在的關聯資訊轉換為圖結構,並利用學到的特徵對新訓練任務進行特徵加強,使得網路學習到更具通用性的特徵。GLoMo 框架的設計有非常不錯的創新且能夠很好的泛化應用到不同的任務,且均取得了一定的效能提升,對於遷移學習的機制提出了新的思路,並且啟發學習資料間的潛在關聯來強化網路特徵表示,是一篇非常值得一讀的論文,目前工程程式碼以及訓練方式都還沒有公開,期待能有比較簡潔的訓練過程。另一方面,GLoMo 目前的實驗主要還是集中於自然語言處理的相關任務,視覺任務涉及不多,但是在如同視訊理解等較為綜合的任務中,用圖來學習區域性特徵之間的相關性,而不侷限於單個畫素對之間的相關性,然後較好的做特徵遷移和利用,也同樣是值得思考和嘗試的方向。
論文:Symbolic graph reasoning meets convolutions (推薦)
本文目前只公開摘要
這篇論文在傳統卷積神經網路(CNN)基礎上提出了一個名為 SGR(Symbolic Graph Reasoning)的新網路層,嘗試著利用外部的各種人類知識來賦予網路進行全域性語義推理的能力。與之前如 CRF 等獨立的圖模型不同的地方在於 SGR 可以被插入到任意的卷積層之間並使用先驗知識圖(Prior Knowledge Graph)進行初始化,圖中的節點分別表示先驗知識圖裡每條語義資訊的不同特性。SGR 由三個主要部分構成:1. 原始卷積特徵投票產生語義圖節點(Local-to-semantic)2. 傳遞資訊並保持語義一致性的圖推理模組 3. 從語義特徵轉換回加強後的卷積資訊表示(Semantic-to-local),目前該文章至截稿前還未提前釋出,根據文章的摘要提出 SGR 層加入後,對於傳統 CNN 在三個語義分割任務以及一個影像分類任務在效能上都有了顯著的提升,將圖形結構化表達靈活加入網路與對影像分割任務特徵表達的加強,都是 SGR 這篇工作非常值得關注的閃光點與創新。
論文:Graph Oracle Models, Lower Bounds, and Gaps for Parallel Stochastic Optimization
論文連結:https://arxiv.org/pdf/1805.10222.pdf
這篇文章著眼於利用併發性在隨機優化與演算法學習中的作用,提出一個普適性的先知框架(Oracle based framework),通過一個依賴關聯圖(Dependency graph)捕捉不同的隨機優化設定資訊,並且由此圖推匯出通用的演算法下界(Lower bounds),文章著眼於找到通用的隨機演算法的優化並探究在多重平行的演算法優化設定條件下,演算法模型的更新延遲以及通訊過程的併發處理,現今的多數深度模型優化過程都是基於隨機優化的演算法佔主導(如隨機梯度下降),所以文章的對此類優化演算法的探索是比較有意義的,但文章相對較抽象,閱讀有較高的數學門檻,適合專注於演算法優化的相關學者。
論文:M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search
論文連結:https://arxiv.org/pdf/1802.04394.pdf
根據已知查詢命令作為原始節點,在龐大的圖裡搜素尋找目標節點的尋路演算法,是一個非常重要的研究問題,也在如知識相簿補全(Knowledge base completion,KBC)等任務上有不錯的應用意義,通常這個問題可以被解構為基於強化學習(Reinforcement learning)的狀態轉換模型(State transition model),但是單純強化模型在針對稀疏獎勵的(Sparse reward)情況下效果並不太好,故 M-walk 結合迴圈神經網路(RNN)以及因為 alphago 名聲大振,以搜尋見長的蒙特卡洛樹(MCTS),開發出在圖中行走搜尋的演算法代理,嘗試在稀疏獎勵的環境下提升準確性的尋路方式。M-walk 通過 RNN 編碼尋路狀態並且將它分別對映為選路策略(Policy)和 Q-values,訓練階段,蒙特卡洛樹協助神經網路策略產生尋找目標的路徑,這種情況下產生的路徑更容易找到反饋為正的目標獎勵,實驗結果表明 M-walk 比其他基於強化學習的方法學到更好的尋路策略,同時也在效果上超越了傳統的知識相簿補全任務(KBC)的 baseline。文章屬於偏工程實踐的工作,研究的問題有不錯的應用價值, 此外文中創新式地利用蒙特卡洛樹的加入輔助解決稀疏獎勵的難點,都是文章的亮點。
3. 表徵學習(Representation)
論文:Learning Plannable Representations with Causal InfoGAN (推薦)
論文連結:https://arxiv.org/pdf/1807.06358.pdf
GAN 近年來在影像、語音、甚至視訊這樣的高維度資料(High dimensional data)的學習方面都展示了非常強大的模擬能力和「想象力」,Causal infoGAN 則是針對動態系統設計的以目標為導向的視覺化規劃網路(Goal-directed visual plans)。它使用視覺化的方式將動態系統由當前狀態到理想目標狀態的推理過程通過 GAN 學習進行表達,並將這個規劃模型通用到離散或是連續型的狀態,最終將生成的路徑規劃投射到一系列存在時序關係的檢視進行表達和展示。
對於未來機器人,我們期待在非特定場景下完成一些常規任務時他們擁有對所處場景的基本推理能力並由此能自治地規劃自己的行動,在人工智慧的研究範疇內對這個問題的探索主要發展為兩個分支:自動化規劃與排程(Automated planning and scheduling)與強化學習(Reinforcement Learning)。自動規劃排程很大程度上都依賴於人類本身的先驗觀察以及邏輯設計,但是對於難以界定的形變(比如繩子扭曲程度)和狀態判定有著固有的缺陷,當前的大多數工作都是基於深度神經網路的強化學習,通過制定學習策略(Policy)試錯以及合適的獎勵函式(Reward function)設計,目前強化學習針對很多特定任務都已取得很好的效果,但也正因如此,許多強化學習方法對於特定任務所設計的獎勵函式很難輕易的泛化和遷移到其他任務,目前提出的幾個致力於構建多工通用的強化學習方法很難做到樣本高效性(Sample efficient,針對類似於影像這樣的高維度輸入設計獎勵函式具有很強挑戰性),提出的通用方法受限於只能解決相對簡單的決策問題(Decision making problem),另一方面,當前通用的強化學習方法多是基於環境的深度模型學習和規劃,學習過程經常分解細化到畫素級別(Pixel level),這使得在強化學習過程中基於隨機搜尋(Random-based search)的行為選擇非常有效,規劃物體從初始狀態直接到目標狀態效果很好,即便如此,學習計算成本高昂而且從中學習到的表徵(Representation)是非結構化的,無論是長時間段的推理(Long-term reasoning)或者是擴充套件更復雜的高階決策問題,深度強化模型都仍然存在不足。
基於如上考量,Causal infoGAN 嘗試結合深度學習的動態模型和傳統的狀態規劃,成為一個用於長時段推理規劃並能在真實場景下也可以有效感知學習的方法。
Causal infoGAN 框架的整體結構如下圖所示:
圖 8. 左邊 a 為 Causal InfoGAN 整個網路模型流程圖,右邊 b 為狀態規劃策略。
首先從先驗概率分佈 P 中抽取抽象狀態 s, 根據 s 便可以使用轉換模型 T 獲取相對應的目標狀態 s',成對的 s 與 s' 樣本與一個隨機噪音樣本輸入到生成器(Generator)得到對應的 Causal Observations 輸出 o 同 o',而判別器(Discriminator)對映成對的 Causal Observations 到真實的概率分佈。右圖所示的規劃正規化則具體展示了框架進行 causal 推理的過程,將初始和目標的 Observations 先對映為抽象的狀態,之後應用相應的規劃演算法(Planning algorithm)尋找和生成初始狀態到目標狀態間的中間路徑過程,也即是規劃過程,根據學習獲得的規劃模型,最終又反推得到一系列中間狀態路徑對應的 Observations。
圖 9. Causal InfoGAN,InfoGAN,DCGAN 對繩結扭曲過程模擬的視覺化過程,可以看到 Causal InfoGAN 對繩子彎曲過程的變化預測更合理。
Causal infoGAN 在繩子打結這個任務下,將得到的規劃尋路 observations 以圖片形式展示出來並且與 infoGAN,DCGAN 做了對比。三個網路都給出了自己從初始階段到目標狀態下規劃的結果,可以明顯看出 Causal infoGAN 展示的規劃過程是繩子打結過程推演最符合邏輯的,證明 Causal infoGAN 確實具有合理規劃長時段任務的能力,目前文章網上已經有 infoGAN 的 github 專案,causal infoGAN 專案的 github 已建立但仍為空,期待作者會在短期放出,現下驗證演算法的實驗多集中於嘗試性實驗(toy experiments),我們可以期待該演算法作為啟發在後續能應用到真實場景下機器人多行為控制實驗中,同時可以有機會在同等任務下與前沿的強化學習模型做一個更全面的橫向對比,總的來說 Causal infoGAN 是一個比較簡潔而且思路新穎的演算法,對後續的機器人控制演算法研究也具有不錯的啟發意義。
論文:Flexible Neural Representation for Physics Prediction (推薦)
這篇文章與其說是為了解決一個細分領域的問題,不如說是一種對學習解構場景的新型正規化探索。文章提出一個名為層次化關係網路(Hierarchical Relation Network, HRN)的端到端(End-to-end)可微神經網路,HRN 試圖將空間環境中的物體用層次化的卷積圖進行表達(Representation),並在此種表達下學習去預測物體的動態物理變化。相比於其他的神經網路結構,HRN 能夠準確地把握住物體在碰撞,非嚴重變形情況下的複雜變化,並預測較長時間段內物體可能產生的動態變化,這表明這樣的表徵結構和網路極有潛能成為新一代視覺任務,機器人或定量認知科學下的物體預測基石。
圖 10. 將一個完整的物體用粒子團表示,之後再抽象為樹狀的結構化表示。
人類對於環境的感知能力向來都敏捷而強大,對於眼前場景人類能夠在很短時間內將它們解構為不同的獨立物體(Object),當場景中有物體發生碰撞或者形變等改變時,人眼也能在一段時間內敏銳地察覺到這一系列變化。然而神經網路面對同樣的變化就沒有如此的感知能力,所以文章提出為了使網路同樣具備對物理變化的感知能力,將一個物體解構為更小的粒子(Particles)集合,同色的粒子作為一組,通過結構化的組合,最終形成圖來表達物體中的層級關係,粒子群組間也新增關聯限制,這樣當物體產生變化的時候根據粒子間關聯束縛的改變,整個物體的狀態改變也能被預測感知。
圖 11. HRN 網路感知與反饋流程。
HRN 模型將狀態變化前的粒子圖(Particles graph)作為網路輸入同時輸出預測產生的下一個狀態。從圖中可以看到,結構化卷積圖模組將粒子各部分產生的影響求和輸入,粒子對的狀態和彼此之間的關聯也將這樣的影響進一步傳導下去,最終在網路出口計算出粒子的下一狀態。
圖 12. 圖中 a-h 分別為不同情況下,HRN 對於物體在立體空間中碰撞或形變過程的狀態預測與視覺化模擬結果。
通過模擬物體在立體環境空間中碰撞或者形變後產生的狀態改變,可以觀察到 HRN 應用下,物體狀態預測與 ground truth 的對比圖。在一段連續時間之內,物體的形變和空間位置轉變被很好的模擬預測了出來。文章證明了物體在圖結構組織下的粒子表徵,以及 HRN 應用後對場景物體變化的感知確實有幫助,並且為未來演算法模型對環境感知的能力提升開了一個非常不錯的頭,目前文章程式碼也已陸續公開,在這篇文章的基礎上,我們同樣可以期待下一個面對真實場景的 HRN 能做到的感知實驗。
論文:Beyond Grids: Learning Graph Representations for Visual Recognition (推薦)
本文目前只公開摘要
文章從視覺識別任務裡提取 2d 特徵圖,之後從中提出學習型圖(learning graph),將二維的平面影像轉換為圖結構從而形成了新形式的表徵方法。文章提出的方法還可以通過圖形結構將資訊傳播到所有的圖節點下,並且能將學到的圖表示對映回 2D 網格之中。文章的圖表徵在常規網格之上進行了推理可以捕捉影像子區域之間的長時段依賴關係,支援端到端的訓練並且能夠容易的整合到現存的網路模型中,文章在三個非常有挑戰性的視覺任務:語義分割,目標檢測與物體例項分割上都做了實驗評估,最終文章陳述的方法實驗結果均好於當前 state-of-art 結果。這篇文章目前截稿為止只放出了摘要部分,立意選取為前沿的視覺任務的圖表徵方式,工程性方面支援與當前網路整合且有端到端的訓練方法,結果根據其表述更是在多個高階視覺任務當中取得了非常好的結果,綜合其結果和方法描述可以說是本屆會議非常值得期待的一篇工作。
論文:Learning Hierarchical Semantic Image Manipulation through Structured Representations
論文連結:https://arxiv.org/pdf/1808.07535.pdf
理解、推斷以及操縱影像中的語義概念是一個長青的研究課題,這篇工作向我們展示了一個新穎的結構化語義影像操作(semantic image manipulation)框架,高光點在於這篇工作應用了一個結構化語義佈局(structured semantic layout)作為框架進行操作的媒介表徵(intermediate representation)。這樣的框架優越性就在於能允許使用的使用者可以在物體例項層次(object-level)上增加,移除或者變更 bounding box。實驗評估結果也表明了此種表徵方式下的影像操作框架無論在量級上還是最終效果上均優於現有的影像生成填充模型(image generation and context hole-filing models),同時該框架也證實了其在語義例項分割,互動影像編輯,資料驅動的影像操作等任務方面的益處與可用性,這篇文章提出的結構化語義佈局是非常有趣的一個亮點,值得從事視覺相關研究任務的學者瞭解並閱讀其內在的優點。
4. 生成模型與強化學習(Generative Model and Reinforcement Learning Related)
論文:IntroVAE: Introspective Variational Autoencoders for Photographic Image Synthesis (推薦)
論文連結:https://arxiv.org/pdf/1807.06358.pdf
本文是一篇較偏向應用的文章,不久之前的 PGGAN 生成高清人臉的文章(https://research.nvidia.com/sites/default/files/pubs/2017-10_Progressive-Growing-of/karras2018iclr-paper.pdf)發表後,變分自編碼器(VAE)等細化和提升的文章也陸陸續續發表,今天的這篇文章提出了名為自糾正變分自編碼器(IntroVAE)的方法,通過在訓練過程中自我評估並做出糾正行為,從而生成高清人臉。IntroVAE 保留了 VAEs 系列模型訓練穩定以及精緻的流體表達等優點,同時它不需要額外的判別器,最終生成了類比下同等或者更加優質的高清人臉。
圖 13. IntroVAE 網路流程結構圖。
模型本身非常簡潔,主要框架就是推理模型(Inference model E)與生成器(Generator G),在輸入與特徵編碼之間形成一個閉環,從而達到 IntroVAE 想要實現的自評估的效果,訓練流程也與普通生成網路大致無二。
圖 14. IntroVAE 網路訓練演算法過程。
圖 15. 圖中 a 為人臉高清原圖,b 為 PGGAN 生成的人臉,c、d 為 IntroVAE 網路的重構人臉以及人臉示例圖片。
最終生成的高清人臉從視覺效果來看也與之前的工作相差無二,文章亮點有限,但是基於 IntroGAN 能夠自我評估的機制,是否存在更加簡單的訓練方式以及更加輕量級的工作流程,期待能夠在後續的工作中看到。
5. Other recommendation on the List
1. efficient loss based decoding on graphs for extreme classification
Image Generation and Translation with Disentangled Representations
論文連結:https://arxiv.org/pdf/1803.03319.pdf
2. Submodular Field Grammars: Representation, Inference, and Application to Image Parsing
論文連結:https://homes.cs.washington.edu/~pedrod/papers/nips18.pdf
3. Adaptive Sampling,Towards Fast Graph Representation Learning
論文連結:https://arxiv.org/pdf/1809.05343.pdf
4. Visual Reinforcement Learning with Imagined Goals
論文連結:https://arxiv.org/pdf/1807.04742.pdf
5. Graphical Generative Adversarial Networks