二次元專用超分AI模型APISR:線上可用,入選CVPR

机器之心發表於2024-04-07

《龍珠》、《神奇寶貝》、《新世紀福音戰士》等上個世紀開播的動漫是很多人童年回憶的一部分,它們曾給我們帶來了充滿了熱血、友情與夢想的視覺之旅。某些時候,我們會突然有重溫這些童年回憶的衝動,但我們卻可能會略帶遺憾地發現這些童年回憶的解析度非常低,根本無法在客廳的 4K 大屏電視上創造出良好的視覺體驗,以至於可能阻礙我們與在高解析度數字世界中成長的孩子分享這些童年回憶。

針對這樣的困擾(以及潛在的市場),一種做法是由動畫公司製作重製版,但這項任務的人力和資金成本都不低。

而隨著多模態人工智慧的效能日益強大,採用基於 AI 的超解析度技術來提升動漫解析度也成為了一個值得探索的方向。

近日,密西根大學、耶魯大學和浙江大學的一個聯合團隊透過分析動漫的製作過程,為動漫超解析度任務創造出了一套相當實用的新方法,其中包括資料集、模型和一些改進措施(該論文已被 CVPR 2024 接收)。該團隊也開源了相關程式碼,並在 Huggingface 上線了一個試用模型。

圖片

  • 論文標題:APISR: Anime Production Inspired Real-World Anime Super-Resolution

  • 論文地址:https://arxiv.org/pdf/2403.01598.pdf

  • 程式碼地址:https://github.com/Kiteretsu77/APISR

  • 試用模型:https://huggingface.co/spaces/HikariDawn/APISR

下圖是機器之心用《龍珠》第一集片頭截圖嘗試的結果,效果肉眼可見的好。

圖片

另外也已經有人嘗試使用該技術來提升影片解析度,結果非常棒:

圖片

動漫製作流程

為了瞭解這套新方法的創新之處,我們先看看動漫一般是怎麼製作的。

首先,由人類在紙上繪出草圖,然後透過計算機影像生成(CGI)處理來進行上色和增強。然後,將這些經過處理的草圖連線起來,做成影片。

不過,由於繪圖這道工序非常耗費人力且人眼對運動並不敏感,因此在合成影片時,業內的標準做法是讓單張影像重複用於多個連續幀。

透過分析此流程,這個聯合團隊不禁開始懷疑是否有必要使用影片模型和影片資料集來訓練動漫超解析度模型:完全可以對影像執行超解析度,然後再把這些影像連起來嘛!

於是他們決定使用基於影像的方法和資料集打造一個適用於影像和影片的統一的超解析度和恢復框架。

新提出的方法

面向動漫製作的影像超解析度(API SR)資料集

該團隊提出了 API SR 資料集,這裡簡單介紹一下其收集整理方法。該方法利用了動漫影片的特點(見圖 2),可以從影片中選出被壓縮最少且資訊最豐富的幀。

圖片

基於 I 幀的影像收集:影片壓縮涉及到影片質量和資料規模的權衡。而現在影片壓縮的標準有很多,每一種都有各自的複雜工程系統,但它們都有一個類似的主幹設計。

這些特點導致每一幀的壓縮質量是不一樣的。影片壓縮過程會指定一些關鍵幀(即 I 幀)作為單個的壓縮單元。在實踐中,I 幀是場景變化時的第一幀。這些 I 幀可以佔據較大的資料量。而非 I 幀(即 P 幀和 B 幀)則有更高的壓縮率,它們在壓縮過程中需要以 I 幀為參照,引入隨時間的變化情況。如圖 3a 所示,在該團隊收集的動漫影片中,I 幀的資料大小一般都高於非 I 幀,並且 I 幀的質量也確實更高。因此,該團隊使用影片處理工具 ffmpeg 從影片源提取出了所有 I 幀並將其作為初始資料池。

圖片

基於影像複雜度進行選取:該團隊基於影像複雜度評估(ICA)對初始的 I 幀池進行了篩選,這是一個更適合動漫的指標,見圖 4。

圖片

API 資料集:該團隊人工收集了 562 段高質量動漫影片。然後基於上述兩步從每段影片收集了 10 個得分最高的幀。然後再進行了一番篩選,去除了不合適的影像,最終得到了一個包含 3740 張高質量影像的資料集。圖 5 展示了一些影像示例。另外也能從圖 3b 看到 API 資料集在影像複雜度方面的優勢。

圖片

回到最初的 720P 解析度:透過研究動畫製作流程,可以看到大多數動漫製作都採用了 720P 的格式(即影像高 720 畫素)。但是,在真實世界場景中,為了實現多媒體格式的標準化,動漫往往會被錯誤地上調到 1080P 或其它格式。該團隊透過實驗發現,將所有動漫影像的尺寸重新調整為原始的 720P 可以提供創作者設想的特徵密度,同時還有更緊湊的動漫手繪線條和 CGI 資訊。

一個動漫的實用退化模型

在現實世界的超解析度任務中,退化模型(degradation model)的設計非常重要。基於高階退化模型和近期的一種基於影像的影片壓縮恢復模型,該團隊提出了兩種改進方案,可以恢復扭曲的手繪線條和各種壓縮偽影,還能增強退化模型的表徵。圖 6a 展示了這個退化模型。

圖片

面向預測的壓縮:對影片壓縮偽影的動畫恢復任務而言,使用影像退化模型會構成難題。這是因為 JPEG 影像格式的壓縮方式和影片壓縮方式的原理是不一樣的。

為了應對這樣的難題,該團隊設計了一種在影像退化模型中使用的面向預測的壓縮模型。該模組需要影片壓縮演算法來在壓縮單幀的輸入。

憑藉此方法,影像退化模型能夠合成類似於典型的多幀影片壓縮中觀察到的壓縮偽影,如圖 7 所示。之後,透過將這些合成的影像輸入影像超解析度網路,系統就能有效地學習各種壓縮偽影的模式並進行恢復。

圖片

打亂大小調整模組的順序:真實世界超解析度領域的退化模型需要考慮模糊、大小調整、噪聲和壓縮模組。模糊、噪聲和壓縮是可以透過清楚的數學模型或演算法合成的真實世界偽影。但是,大小調整模組的邏輯全然不同。大小調整並不是自然影像生成的一部分,而是為超解析度的成對資料集專門引入的。因此,之前固定大小的大小調整模組並不非常合適。該團隊提出了一種更穩健和有效的解決方案,其中涉及到在退化模型中按不同順序隨機放置大小調整操作。

增強動漫的手繪線條

該團隊的選擇是直接提取銳化過的手繪線條資訊並將其與基本真值(GT/ground-truth)融合,從而形成偽 GT。透過將這種專門針對性增強過的偽 GT 引入到超解析度訓練過程中,網路無需引入額外的神經網路模組或單獨的後處理網路也能生成銳利的手繪線條。

為了更好地提取手繪線條,該團隊使用了 XDoG,這是一種基於逐畫素高斯核的草圖提取演算法,可以提取出銳化的 GT 的邊緣圖。

然而,XDoG 邊緣圖存在過多噪聲的問題,其中包含離群畫素和破碎的線條表徵。為了解決這個問題,該團隊提出了一種離群值過濾技術,還搭配了一種定製設計的被動擴張方法。透過這種方式,可以得到更加連貫且未擾亂的手繪線條表徵。

該團隊透過實驗發現,過度銳化的預處理 GT 可以讓手繪線條邊緣比其它無關的陰影邊緣細節更容易注意到,這使得離群值過濾器可以更輕鬆地分辨它們的差異。為此,該團隊提出首先為 GT 進行三輪去銳化掩碼操作。圖 8 給出了這個過程的簡單圖示。

圖片

用於動漫的平衡雙感知損失

另外還有出現多餘顏色偽影的問題,這主要是由於生成器和感知損失之間的訓練中資料域不一致。

為了解決這個問題以及彌補之前方法的不足,該團隊的做法是使用一個預訓練的 ResNet,其在 Danbooru 資料集上進行了動漫目標分類任務的訓練。Danbooru 資料集是一個動漫插圖資料庫,包含大量且豐富的標註。由於這個預訓練網路是 ResNet50 而不是 VGG,因此該團隊也提出了一種類似的中間層比較。

但是,如果只使用基於 ResNet 的損失,可能會出現視覺結果差的問題這是由 Danbooru 資料集中的固有偏差導致的 —— 該資料集中大部分影像都是人物面部或相對簡單的插圖。因此,該團隊權衡之下,決定使用真實世界特徵作為輔助來引導訓練過程中基於 ResNet 的感知損失。這種方法可得到視覺效果好的影像,同時還能解決出現多餘顏色的問題。

實驗

實現細節

實驗中,該團隊使用了新提出的 API 資料集作為影像網路的訓練資料集。至於影像網路,則是使用了 GRL 的一個微型版本,其中帶有最近卷積上取樣模組。

更多細節和引數請參看原論文。

與當前最佳方法比較

該團隊將新提出的 APISR 與其它一些先進方法進行了定量與定性比較,包括 Real-ESRGAN、BSRGAN、RealBasicVSR、AnimeSR 和 VQD-SR。

定量比較

如表 1 所示,新模型的網路規模最小,引數量只有 1.03M,但在所有指標上的表現超過了其它所有方法。

圖片

該團隊尤其強調了面向預測的壓縮模型的作用。

另外,還需指出,僅憑藉 AnimeSR 和 VQDSR 分別 13.3% 和 25% 的訓練樣本複雜度,新方法就達到了這樣的結果。這主要是得益於資料集整理過程引入了影像複雜度評估,其能透過選取資訊豐富的影像來提高學習動漫影像表徵的效果。此外,得益於新設計的顯式退化模型,退化模型方面就無需訓練了。

定性比較

如圖 10 所示,APISR 得到的視覺質量遠勝過其他方法。

圖片

該團隊也進行了消融研究,驗證了新資料集、退化模型和損失設計的有效性,詳見原論文。

相關文章