Pre
title: Separating Style and Content for Generalized Style Transfer
accepted: CVPR 2018
paper:https://arxiv.org/abs/1711.06454
code: none
關鍵詞: style transfer, chinese typeface transfer, font geration
閱讀理由: 回顧經典
Idea
將圖片解耦成內容和風格兩種特徵,兩兩組合以生成具有一方內容與另一方風格的圖片
Motivation
現有的風格遷移方法顯式學習某種源風格到目標風格的變換,無法泛化到新風格
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/9831ad37bca92bbb11dd32d243741593a5b5000c8b38e55630f9bc87ef79211a.png)
圖1 本文提出的EMD模型的框架
Background
相關工作分三部分介紹:
- Neural Style Transfer
- Image-to-Image Translation
- Character Style Transfer
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/eb9daa97647ee60ecfce445fff53543e8d7598515fca7ad9ee1c67839994bacb.png)
表1 EMD與現存方法的比較
Method(Model)
Overview
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/cd04e84ca544d21e67e1067495ae5caf5ae0163dce43993bf04ed32986442ef4.png)
圖2 EMD做風格遷移的詳細架構
Encoder Network
原文講得很細,略
Mixer Network
提到 Mixer 是一個雙線性模型(bilinear model)
雙線性:對函式\(f(x, y)\),當固定其中一個引數(x)時,\(f(x, y)\)對另一個引數(y)是線性的
實際上這個模型似乎只有一個簡單的可學習引數\(W\),對內容C風格S按下式進行融合:
對照圖2看能發現透過W能夠將維度不同的內容(\(1\times B\))風格(\(1\times R\))融合為任意維度的F
(\(1\times K\)),還挺方便,看起來是相加和拼接的進階版?
Decoder Network
多層 Deconvolution-BatchNorm-ReLU 上取樣
Loss
使用加權的L1損失函式(weighted L1 loss)作為生成損失(generation loss),用於衡量生成的影像與目標影像之間的差異。比起L2,L1損失傾向於產生更清晰、更乾淨的影像。函式定義如下:
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/196ec8d1da363e62a0b3114713e883e589ae47f3862609effa9cef71514649ae.png)
公式4-5
其中 \(W^{ij}_{st}\) 和 \(W^{ij}_{b}\) 是兩個權重,用於緩解目標集中由隨機取樣引起的不平衡。這兩個權重分別關於字元的大小和厚度(\(W^{ij}_{st}\))以及字元的黑暗程度(\(W^{ij}_{b}\))。
因為每個迭代中目標圖片的尺寸和厚度都會改變,模型主要最佳化那些有更多的畫素的圖片,例如那些更大更厚的漢字。
作者定義 \(W^{ij}_{st}\) 為每個目標影像中黑色畫素數量的倒數。對於 \(W^{ij}_{b}\) ,作者計算每個目標影像中黑色畫素的平均值,並計算其 softmax 權重。但是什麼叫做黑畫素的平均值(mean value of the black pixels)?難道是考慮每個圖片裡黑色畫素有的略大於0,並非完全0/255的二元圖片?
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/86ef73123933e51cbddd1cedb323a1880d3d5d74c9f3cdbb97bb4c25fe4bf403.png)
公式6-7
這種損失函式的選擇是基於字元字型遷移問題的特點,L1損失傾向於產生更清晰、更乾淨的影像。透過引入這些權重,模型在訓練過程中能夠更好地處理不同大小和厚度的字元,以及不同黑暗程度的字元,從而提高生成影像的質量。
Experiment
Settings
詳細講了網路的配置,略
值得注意的是該模型需要風格參考也要內容參考,兩者都要多張輸入,由同一個引數r控制,也就是每次生成需要r張風格r張內容參考圖片
Dataset
832 字型,每個有 1732 漢字,圖片解析度80x80
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/dfc78d192a3ac975b0a7ce35d6ffe6841487540bc350a55427e850e43480d54f.png)
圖3 資料集劃分示意圖,目標圖片選擇和參考集構建
資料集劃分為圖3所示的D1~D4四部分,紅叉是目標圖片,同一行的橙色圈是它的參考風格圖片,而同一列的綠色圈則是它的參考內容圖片
Influence of the Training Set Size
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/554992e6670b6657b52eac55017212f1ffd082d976e3f4838ee680c408bb280a.png)
圖4 D1~D4的生成結果(從左上到右下),TG: 目標圖片, O1: Nt=20k的輸出, O2: Nt=50k的輸出, O3: Nt=100k的輸出, O4: Nt=300k的輸出, O5: Nt=500k的輸出。固定r=10
Influence of the Reference Set Size
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/de6e526aa24bb3ec1e87292456a930fa1c0ba612b0732b80cc251215c5d2e524.png)
圖5 參考圖片數量的影響(從左上到右下D1~D4),TG: 目標圖片, O1: r=5的輸出, O2:
Effect of the Skip-connection
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/5e5bc992af550ce5368c1831aed50b97e01ea0f85e096a0d7ef847fc87e19170.png)
圖6 跳躍連線的影響(從左上到右下D1~D4),TG: 目標圖片, O1: 沒跳躍連線的輸出, O2:
Validation of Style and Content Separation
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/80237f5d6e9efdcefa8c4048cf65aa088c15d8d9d2cc6c455b6de6d8b2691c20.png)
圖7 風格抽取的驗證 CR:內容參考 TG:目標圖片 O1~O3分別由CR和三組不同的風格參考生成
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/cd79113ca9a60d61dbfacc70b83b3ec4a6fb3ef45d13009305ba2db706809933.png)
圖8 內容抽取的驗證 SR:風格參考 TG:目標圖片 O1~O3分別由SR和三組不同的內容參考生成
作者認為圖7說明風格編碼器抽取很準確,能抽取出穩定的特徵以生成相似的結果,對圖8也是類似的理解。如果像CF-Font那樣分析內容字形與目標字形的風格相似性或許能發現,內容字形會嚴重影響結果。可能這裡內容字形太多,導致抽取的特徵較為平均,以及圖片解析度也小,體現不出影響。
Comparison with Baseline Methods
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/0055b9c19491e4b4d60bd9d3a68cd411cef58cb1dcfae0a8271799e18cd9c0ca.png)
圖9 和baseline的比較,所有模型使用相同數量的圖片對來訓練
![[論文速覽] Separating Style and Content for Generalized Style Transfer](https://i.iter01.com/images/99a44d54c781f96af6b4ecbd85bf5914529803da47391741257313b3b695095d.png)
圖10 生成新風格新內容的比較。模型名後面的數字對於EMD(有泛化能力無需重新訓練)來說是參考圖片數量,對於baseline來說是訓練的圖片對數量
Conclusion
略
Critique
跟同期的SA-VAE相比,訓練資料更多,圖片更清晰美觀,對比的baseline更多,貢獻更直接且集中,指出瞭解耦的作用。而SA-VAE多了關於漢字結構資訊的使用,而且用的是VAE,實驗多了插值、其他語言文字生成
本文對內容也需要多張參考圖片,而後續工作似乎想降低開銷,固定了一種字型作為源字型來提供內容圖片