Pre
title: Separating Style and Content for Generalized Style Transfer
accepted: CVPR 2018
paper:https://arxiv.org/abs/1711.06454
code: none
關鍵詞: style transfer, chinese typeface transfer, font geration
閱讀理由: 回顧經典
Idea
將圖片解耦成內容和風格兩種特徵,兩兩組合以生成具有一方內容與另一方風格的圖片
Motivation
現有的風格遷移方法顯式學習某種源風格到目標風格的變換,無法泛化到新風格
圖1 本文提出的EMD模型的框架
Background
相關工作分三部分介紹:
- Neural Style Transfer
- Image-to-Image Translation
- Character Style Transfer
表1 EMD與現存方法的比較
Method(Model)
Overview
圖2 EMD做風格遷移的詳細架構
Encoder Network
原文講得很細,略
Mixer Network
提到 Mixer 是一個雙線性模型(bilinear model)
雙線性:對函式\(f(x, y)\),當固定其中一個引數(x)時,\(f(x, y)\)對另一個引數(y)是線性的
實際上這個模型似乎只有一個簡單的可學習引數\(W\),對內容C風格S按下式進行融合:
對照圖2看能發現透過W能夠將維度不同的內容(\(1\times B\))風格(\(1\times R\))融合為任意維度的F
(\(1\times K\)),還挺方便,看起來是相加和拼接的進階版?
Decoder Network
多層 Deconvolution-BatchNorm-ReLU 上取樣
Loss
使用加權的L1損失函式(weighted L1 loss)作為生成損失(generation loss),用於衡量生成的影像與目標影像之間的差異。比起L2,L1損失傾向於產生更清晰、更乾淨的影像。函式定義如下:
公式4-5
其中 \(W^{ij}_{st}\) 和 \(W^{ij}_{b}\) 是兩個權重,用於緩解目標集中由隨機取樣引起的不平衡。這兩個權重分別關於字元的大小和厚度(\(W^{ij}_{st}\))以及字元的黑暗程度(\(W^{ij}_{b}\))。
因為每個迭代中目標圖片的尺寸和厚度都會改變,模型主要最佳化那些有更多的畫素的圖片,例如那些更大更厚的漢字。
作者定義 \(W^{ij}_{st}\) 為每個目標影像中黑色畫素數量的倒數。對於 \(W^{ij}_{b}\) ,作者計算每個目標影像中黑色畫素的平均值,並計算其 softmax 權重。但是什麼叫做黑畫素的平均值(mean value of the black pixels)?難道是考慮每個圖片裡黑色畫素有的略大於0,並非完全0/255的二元圖片?
公式6-7
這種損失函式的選擇是基於字元字型遷移問題的特點,L1損失傾向於產生更清晰、更乾淨的影像。透過引入這些權重,模型在訓練過程中能夠更好地處理不同大小和厚度的字元,以及不同黑暗程度的字元,從而提高生成影像的質量。
Experiment
Settings
詳細講了網路的配置,略
值得注意的是該模型需要風格參考也要內容參考,兩者都要多張輸入,由同一個引數r控制,也就是每次生成需要r張風格r張內容參考圖片
Dataset
832 字型,每個有 1732 漢字,圖片解析度80x80
圖3 資料集劃分示意圖,目標圖片選擇和參考集構建
資料集劃分為圖3所示的D1~D4四部分,紅叉是目標圖片,同一行的橙色圈是它的參考風格圖片,而同一列的綠色圈則是它的參考內容圖片
Influence of the Training Set Size
圖4 D1~D4的生成結果(從左上到右下),TG: 目標圖片, O1: Nt=20k的輸出, O2: Nt=50k的輸出, O3: Nt=100k的輸出, O4: Nt=300k的輸出, O5: Nt=500k的輸出。固定r=10
Influence of the Reference Set Size
圖5 參考圖片數量的影響(從左上到右下D1~D4),TG: 目標圖片, O1: r=5的輸出, O2:
Effect of the Skip-connection
圖6 跳躍連線的影響(從左上到右下D1~D4),TG: 目標圖片, O1: 沒跳躍連線的輸出, O2:
Validation of Style and Content Separation
圖7 風格抽取的驗證 CR:內容參考 TG:目標圖片 O1~O3分別由CR和三組不同的風格參考生成
圖8 內容抽取的驗證 SR:風格參考 TG:目標圖片 O1~O3分別由SR和三組不同的內容參考生成
作者認為圖7說明風格編碼器抽取很準確,能抽取出穩定的特徵以生成相似的結果,對圖8也是類似的理解。如果像CF-Font那樣分析內容字形與目標字形的風格相似性或許能發現,內容字形會嚴重影響結果。可能這裡內容字形太多,導致抽取的特徵較為平均,以及圖片解析度也小,體現不出影響。
Comparison with Baseline Methods
圖9 和baseline的比較,所有模型使用相同數量的圖片對來訓練
圖10 生成新風格新內容的比較。模型名後面的數字對於EMD(有泛化能力無需重新訓練)來說是參考圖片數量,對於baseline來說是訓練的圖片對數量
Conclusion
略
Critique
跟同期的SA-VAE相比,訓練資料更多,圖片更清晰美觀,對比的baseline更多,貢獻更直接且集中,指出瞭解耦的作用。而SA-VAE多了關於漢字結構資訊的使用,而且用的是VAE,實驗多了插值、其他語言文字生成
本文對內容也需要多張參考圖片,而後續工作似乎想降低開銷,固定了一種字型作為源字型來提供內容圖片