知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

網易易盾發表於2021-09-30

隨著手機相機的升級,隨手拿出手機拍照已經成為很多人不經意的日常,手機相簿、電腦硬碟中儲存的照片數量或許早已悄然過萬。各類社交平臺上,每一秒都有數不勝數的圖片被上傳和分享。

那麼,如何才能輕鬆篩除手機相簿中低質量的照片?如何才能從社交平臺上的海量資料中挑選出高質量的圖片用於首頁展示和推薦?如何才能預先過濾低質量的圖片以提高後續內容稽核模型的效率……在面對這些難題時,影像質量評估演算法體現出了極大的應用價值。


背景介紹

影像質量是一個寬泛的概念,在不同場景下、不同人的眼中,存在著不同的評價角度和評價標準。在攝影論壇上,專業裝置拍攝的高畫質大片比比皆是,普通手機拍攝的照片略顯遜色。

但在社交平臺上,大多數圖片都是使用者上傳的日常照片,那麼手機拍攝的照片只要準確對焦、沒有運動模糊,其影像質量通常已屬前列。甚至有時影像失真也不一定是壞事。

例如對圖1中的X光影像,人們希望它能夠清晰地展現人體組織中的各種細節,因此難以容忍任何噪聲,但在圖2中,背景的拖影反而展現出了影像主體的高速執行,讓圖片更具動感。只要影像具有清晰的主體,人們對模糊背景的容忍度就很高。

由此可見,影像質量評估並沒有普適的標準和統一的方法,往往需要根據不同的場景選用不同的方案。

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

圖1. X光影像

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

圖2. 高速運動的賽車照片


當下,隨著移動裝置的普及和社交平臺的流行,網路使用者拍攝、上傳、轉載的圖片數量呈爆炸式增長,監控和篩選圖片資料重複且枯燥,藉助於更高效的影像質量評估方法方為明智之舉。

與此同時,這一應用場景也對影像質量評估方法提出了新的要求:受到使用者的裝置和審美水平的影響,線上影像的質量參差不齊。失真型別複雜多樣且不可預測,這要求質量評估模型具備更加穩健的評估能力。


影像的失真型別

人類視覺系統對於影像質量的感知常常被籠統地稱為影像清晰度。影像的清晰度受到很多因素的影響,包括失焦、相對運動(即物體運動和相機抖動)、不完善的成像系統(如鏡頭、相機感光模組效能較差)、影像後處理技術(如壓縮和去噪)等。這些因素導致的影像失真,都會不同程度地影響影像質量。由於網路影像通常都會經過拍攝裝置、網路傳輸、顯示裝置這三個節點,在這些節點上所產生的影像失真型別多樣,且程度不一,使得網路影像的失真不同於特定小場景中較為單一的影像失真情況。其中,各種失真型別往往混雜交疊著出現,變化多樣,對構建影像質量評估演算法提出了更高的要求。



影像質量評估的三類方法

影像質量評估(Image Quality Assessment,IQA)是指透過對影像相關特性的分析,來評估影像的視覺失真程度。根據是否具有參考影像,影像質量評估可以分為全參考影像質量評估(Full Reference-IQA,FR-IQA)、半參考影像質量評估(Reduced Reference-IQA, RR-IQA)以及無參考影像質量評估(No Reference-IQA, NR-IQA),NR-IQA也稱為盲參考影像質量評估(Blind IQA, BIQA)。全參考影像質量評估有原始影像作為參考,透過對比失真影像和原始影像的資訊量或者某些維度的特徵相似度來評估失真程度,難度較小。目前,很多成熟的方法和指標已被廣泛使用,例如均方誤差(MSE)、峰值訊雜比(PSNR)、結構相似性(SSIM)等。FR-IQA常用於評估編解碼演算法效能、影像增強演算法效能等場景,這些場景中天然地存在原始影像可作為參考。

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

圖3. 在FR-IQA的應用場景中(a)為參考影像, (b)-(f)為失真影像[1].


半參考影像質量評估以原始影像的部分資訊,或從原始影像中提取的特徵作為參考,難度介於全參考和無參考影像質量評估之間。

現實中最常見的場景是,沒有參考影像也沒有任何相關的資訊,此時只能進行無參考影像質量評估。由於沒有任何參考資訊,無參考影像質量評估的難度最大。其核心在於,如何只依賴影像本身的資訊構建一個合理的評估指標,使其儘可能貼近人類視覺對影像質量的感知。在網路影像的質量評估場景中,不存在參考影像,需要的正是無參考影像質量評估演算法。


資料瓶頸

影像質量評估領域的資料集主要分為人工資料集和自然資料集。人工資料集是根據少量的真實影像,模擬生成一種或多種不同型別、不同程度的失真來構成失真影像資料集,常見的有TID2008、TID2013、LIVE、LIVEMD,其中TID2013規模最大,但也僅有來自25張參考影像的共3000張失真影像。人工資料集不僅規模小,更大的問題還在於失真型別過於單一,例如LIVEMD中雖然對每張參考影像疊加了兩種不同的失真型別,但這與現實中的失真影像相比還是太單一了。自然失真影像的形成涉及許多複雜的因素,許多複雜的失真情況是難以透過人工模擬生成的,因此一些包含自然失真影像的資料集逐漸出現,例如LIVEC、WaterLoo Exploration、KonIQ-10k等。藉助網際網路眾包專案,自然失真影像資料集規模正在逐漸擴大,但事實上擴充資料集的成本極高。影像質量評估演算法的資料集構建不同於其他任務,由於影像質量概念存在主觀性,為了得到較為客觀的評分標籤,每一張影像需要多人對其質量打分,最後取平均值(稱為“平均主觀意見得分”, MOS)作為標籤。這導致標註成本比一般視覺任務高許多倍(通常是幾十倍甚至上百倍)。小規模的資料集能夠滿足早期的傳統影像質量評估演算法,但對於依賴資料驅動的深度學習演算法而言,則顯得捉襟見肘。隨著各個視覺任務對深度學習的廣泛應用,資料集規模和昂貴的標註成本已經成為制約影像質量評估演算法發展的瓶頸



無參考影像質量評估演算法

傳統的無參考影像質量評估演算法透過對失真影像的一些特性來給出評估結果,不需要訓練資料,但需要對失真影像的各種特性進行深入的研究,例如邊緣的擴散、平滑效果、高頻成分的減少或相位相干性的損失等各種模糊特性。由於不同的失真型別在影像上體現出不同的特點,最初的方法需要提前知道失真型別才能針對性地進行質量評估。例如一些方法透過對失真影像計算梯度圖來表徵影像的模糊失真,隨後提取梯度圖中與模糊失真相關的能量特徵用於影像質量的預測。這類方法本質上是人工捕捉影像資訊中與失真相關的規律,因此十分依賴影像資料的分佈。當影像的失真型別未知,或同時存在多種不同的失真時,這類方法就很難利用某種特殊的特徵來完成影像質量的評估。

自然場景統計方法(Natural Scene Statistic, NSS)假設自然影像共享某一些特定的統計特徵,當影像失真時,這些統計特徵就會發生改變,這樣就能夠擺脫對先驗失真資訊的依賴。例如自然影像的離散餘弦變換系數分佈呈現出脈衝狀,這會直接導致熵值的差異,於是 BWS[2]採用Weibull模型來近似自然場景統計規則中的脈衝形狀現象以及尖峰和重尾現象,從中提取特徵並使用SVR來對影像質量進行評價;TCLT[3]進一步採用多通道融合的影像特徵來模擬人類視覺系統的層次性和三色性特徵,並採用K近鄰模型來進行質量預測等。

雖然NSS方法在效能上獲得了很大提升,但是手工特徵在表徵複雜的影像結構和失真資訊時仍然能力有限。和計算機視覺領域的其他任務一樣,影像質量評估領域特徵提取方法的發展也經歷了從手工特徵到深度特徵的過程。一般而言,深度學習特徵相比手工設計的特徵存在很大的優越性,但在影像質量評估領域,資料集的標註成本比其他影像任務高很多倍,導致資料集規模通常都很小,訓練深度卷積網路存在過擬合問題。

因此,一類基於深度學習的演算法直接利用影像分類任務在大規模資料集上預訓練得到的網路,來提取影像特徵,再利用這些特徵進行後處理來得到最終的評估結果。BLNDER[4]考慮到了不同網路層對影像質量相關特徵的敏感程度不同,從預訓練好的VGG網路中提取多個網路層的特徵表示來分別訓練SVR並預測每層特徵的質量評分,最後取各層得分的平均值作為輸入影像最終的質量評分(如圖4所示)。

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

圖4. BLNDER從預訓練網路的多個層提取特徵


由於分類任務與質量評估任務之間的差異始終存在,如何擴大影像質量評估資料集實現深度網路端到端的有效訓練,依然是一個需要探索的方向。一種擴充方式是將原影像分割成多個影像塊,每個影像塊採用原圖的標籤作為標籤,例如CNN[5]、DIQaM[6]等。這類方法的問題在於,雖然資料規模增加了,但標籤的準確性難以保證,因為影像塊的質量與整體影像的質量並不總是一致的,正如圖2中只包含背景區域的影像塊和只包含主體區域的影像塊,顯然具有不同的質量評分。

因此DIQA[7]、BIECON[8]等方法結合了已有的全參考方法,在參考影像存在的情況下為影像塊生成新的標籤,當然這就引入了參考影像的限制。

另一種擴充資料集的方法是從整體影像入手。RankIQA [9]透過人工生成不同程度的失真影像來擴充資料集,雖然沒有確定的質量得分標籤,但可以根據失真程度對影像進行排序,從中抽取兩張影像質量相對高低已知的影像構成影像對,來訓練一個雙生網路,最後取單路網路在小規模資料集上進行微調(如圖5所示)。

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

圖5. RankIQ演算法流程示意圖


HIQA則藉助GAN來擴充參考影像,讓無參考影像評估跨越了沒有原始影像作參照的鴻溝,如圖6所示。透過GAN生成失真影像的參考影像,並與失真影像計算差值圖,作為質量回歸網路的輸入來預測失真影像的質量,極大地提升了無參考影像質量評估模型的效能。


知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

圖6. HIQA演算法流程示意圖


半監督訓練方法

面對失真情況複雜且海量的網際網路影像資料,為保證模型的魯棒性,要求訓練資料具有更豐富多樣的失真型別。雖然RankIQA等方法透過人工模擬生成失真影像擴大了資料集規模,但難以充分模擬現實場景下的多樣性。為了在不增加標註成本的前提下擴充訓練集,我們引入了半監督的訓練方法。

這類方法在影像分類任務上透過利用大量無標籤資料獲得了顯著的效能提升,主要步驟包括:

(1)在小規模有標籤資料集上訓練獲得初步的教師模型;

(2)用教師模型為大規模的無標籤資料集生成偽標籤;

(3)篩選某個置信度範圍內的無標籤資料作為新的訓練集,篩選的目的是,在保證偽標籤相對可靠的同時,該資料對模型而言又具有一定的學習難度;

(4)用新的無標籤資料集訓練學生模型;

(5)在有標籤資料集上對學生模型進行微調。這類方法在影像分類任務上取得了很大的提升,但應用到影像質量評估任務上,存在三個主要問題,對此我們主要的解決方案如下:

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?


藉助現有無監督預訓練引數和傳統演算法的模型融合結果獲得初步的影像質量評估能力,進一步採用半監督訓練方法擴充資料集,可以完全規避影像質量評估資料集有標籤資料集規模太小的瓶頸,從而更好地發揮DNN模型在影像任務上的優勢。

對大量真實網路資料的應用,顯著擴大了模型訓練資料的多樣性,能夠有效促進模型評分貼近人類主觀感知。與在小規模資料集上直接訓練模型得到的結果進行對比,經過半監督方法最佳化後的模型在包括但不限於以下幾種型別的資料上具有顯著的優勢:

  • 背景模糊但語義主體清晰的影像,最佳化後的模型評分更高,更符合人類重點關注語義主體清晰度的特點:

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

最佳化前:0.78

最佳化後:0.94

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

最佳化前:0.73

最佳化後:0.90


  • 影像大片區域梯度變化較小時,傳統演算法和最佳化前的DNN模型均傾向於給出較低的評分,但最佳化後更符合人類感知特點:

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

最佳化前:0.60

最佳化後:0.93

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?

最佳化前:0.75

最佳化後:0.99


  • 影像存在明顯的壓縮損失等失真,但由於本身紋理資訊豐富等原因,最佳化前的DNN模型均評分偏高,但最佳化後的模型評分更準確:

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?


最佳化前:0.59

最佳化後:0.10

知物由學 | 告別挑花眼,AI演算法如何篩選低質量圖片?


最佳化前:0.47

最佳化後:0.09


此外,在解決上述三個關鍵問題後,更多在影像分類任務獲得成功的半監督方法也可以進一步引入到影像質量評估任務上進行更多的嘗試和探索。



後記

在網際網路影像質量評估場景下,穩健的影像質量評估模型可用於自動挑選質量較高的圖片,配合美觀度評估等模型可以進一步擴充演算法的應用場景:

一是,手機相簿中質量較低、較不美觀的照片可以透過演算法自動篩選和刪除;

二是,社交平臺可以透過上述演算法挑選出高質量的圖片用於首頁推薦和展示,也可以對使用者上傳圖片的質量進行及時檢測和提醒;

三是,在內容稽核環節為其他演算法模型的輸入資料提供前置質量檢測功能。

半監督訓練策略透過擴充訓練資料規模,提高了模型的資料上限,讓模型面對海量且多樣的網際網路資料時,依然穩定可靠。




【參考文獻】

[1] Zhang, Lin, et al. "FSIM: A feature similarity indexfor image quality assessment." IEEE transactions on ImageProcessing 20.8 (2011): 2378-2386.

[2] X. Yang, F. Li, W. Zhang, and L. He, ``Blind imagequality assessment of natural scenes based on entropy differences in the DCTdomain,'' Entropy, vol. 20, no. 12, pp. 885_906, 2018.

[3] Q. Wu, H. Li, F. Meng, K. N. Ngan, B. Luo, C. Huang,and B. Zeng, ``Blind image quality assessment based on multichannel featurefusion and label transfer,'' IEEE Trans. Circuits Syst. Video Technol.,vol. 26, no. 3, pp. 425_440, Mar. 2016.

[4] F. Gao, J. Yu, S. Zhu, Q. Huang, and Q. Tian, ``Blindimage quality prediction by exploiting multi-level deep representations,'' PatternRecognit., vol. 81, pp. 432_442, Sep. 2018.

[5] L. Kang, P. Ye, Y. Li, and D. Doermann, ``Convolutionalneural networks for no-reference image quality assessment,'' in Proc. IEEEConf. CVPR, Jun. 2014, pp. 1733_1740.

[6] S. Bosse, D. Maniry, K. R. Müller, T. Wiegand, and W.Samek, ``Deep neural networks for no-reference and full-reference image qualityassessment,'' IEEE Trans. Image Process., vol. 27, no. 1, pp. 206_219,Jan. 2018.

[7] J. Kim, A.-D. Nguyen, and S. Lee, ``Deep CNN-basedblind image quality predictor,'' IEEE Trans. Neural Netw. Learn. Syst.,vol. 30, no. 1, pp. 11_24, Jan. 2019.

[8] J. Kim and S. Lee, ``Fully deep blind image qualitypredictor,'' IEEE J. Sel. Topics Signal Process., vol. 11, no. 1, pp.206_220, Feb. 2017.

[9] X. Liu, J. van de Weijer, and A. D. Bagdanov,``RankIQA: Learning from rankings for no-reference image quality assessment,''in Proc. IEEE Conf. ICCV, Jun. 2017, pp. 1040_1049.

[10] K.-Y. Lin and G. Wang, ``Hallucinated-IQA:No-reference image quality assessment via adversarial learning,'' in Proc.IEEE Conf. CVPR, Aug. 2018, pp. 732_741.



相關文章