作者 | BBuf
單位 | 北京鼎漢技術有限公司 演算法工程師(CV)
編輯 | 唐裡
浙大提出一種新的方法,透過將GAN和SOAT分割框架 結合,實現對夜間影像也具有魯棒的分割效果。
論文發表於2019年,地址為:
近年來,藉助深度卷積神經網路(CNN),智慧駕駛導航和安全監控取得了長足的進步。語義分割作為一種最先進的感知方法,在自動駕駛和安全監控中具有廣泛的應用前景。
當前,語義分割在標準場景(例如具有良好光照條件的白天場景)中表現出了高效的效能。但是,面對諸如夜間之類不利環境,語義分割會 大大降低其準確性。造成此問題的主要原因之一是缺乏足夠的夜間場景分割資料集。
在本文中,我們提出了一個使用生成對抗網路(GAN)來緩解將語義分割模型應用於夜間環境時的準確性下降。為了聯絡白天和夜晚的影像域,我們進行了關鍵的觀察,與夜間環境下的資料相比,已經存在大量標準條件下的分割資料集如BBD,我們收集的ZJU等。
我們提出的基於GAN的夜間語義分割框架包括兩種方法。在第一種方法中,GAN用於將夜間影像轉換為白天,因此可以使用已經在白天資料集上訓練的魯棒模型來執行語義分割。第二種方法是,我們使用GAN將資料集中的白天影像轉換為夜間影像,同時標籤不變。所以,我們可以利用GAN合成夜間資料集,以產生在夜間條件下魯棒性很好的模型。
在我們的實驗中,第二種方法顯著提高了模型在夜間影像上的分割效能,這可以使用IOU和ACC來評價。實驗表明,效能還會隨著資料集中合成夜間影像的比例變化而變化,其中最佳的比例對應於在白天和夜晚效能最高的模型。我們提出的方法不僅有助於智慧車輛視覺感知的最佳化,而且可以應用於各種導航輔助系統。
1. 研究背景
諸如目標監測和語義分割之類的視覺任務始終是安全監控和自動駕駛的關鍵點。語義分割可以透過單個相機拍攝來完成不同的檢測,使場景感知擺脫了複雜的多感測器融合。一些最新的方法如PSPNet,RefineNet,DeepLab和AcNet等以非常高的準確率執行語義分割任務。為了將語義分割應用於自動駕駛和安全監控,我們在先前的工作中提出了一個ERF-PSPNet[1],這是一種高精度的實時語義分割方法。
所有的這些感知演算法均設計為可以在光照條件良好的白天拍攝的影像上執行。然而,戶外應用很難逃脫惡劣的天氣和照明條件。基於語義分割的計算機視覺系統尚未得到廣泛應用的原因之一就是它不能處理環境不利條件。例如,基於可見光相機的語義分割模型在夜間表現不理想,原因就是在極弱的照度下,目標的結構,紋理和顏色特徵會急劇變化。這些特徵可能由於缺乏光照而消失,或者被干擾。因此,如何增強語義分割模型的魯棒性成為計算機視覺領域的重要問題。在本文工作中,我們著重提高夜間語義分割的效能。
在本文中,我們提出了一個主框架如圖Figure1所示,以克服語義分割模型從白天到晚上的精度急劇下降問題。受生成對抗網路的思想啟發,夜間影像在前向推理過程中被轉換為白天域的影像。換句話說,我們透過將部分白天影像轉換為夜間影像來擴充原始的大規模語義分割資料集。在這些實驗中,我們證明此方法提高了語義分割模型的魯棒性。此外,我們還使用多模式立體視覺感測器來採集了浙江大學玉泉校區白天和夜晚的影像製作了資料集ZJU,裝置被安放在一個儀表車上,如Figure2所示。
2. 相關工作
2.1 道路場景的語義理解
語義分割技術對於理解影像內容和感知目標位置很重要,並且該技術在自動駕駛領域也很關鍵。當前,大多數語義分割SOAT工作都是基於全卷積的端到端網路。受到SegNet的啟發,語義分割模型通常採用編解碼結構。編碼器是經過訓練可以對輸入影像進行分類的CNN,解碼器用於將編碼器的輸出上取樣到和原始影像相同的大小。此外,有更多有效的語義分割網路被提出,我們的工作基於ERF-PSPNet,這是一種為導航輔助系統設計的最新語義分割網路。
2.2 模型適應
通常,CNN僅從訓練資料域中學習特徵,並且在不同的領域中可能表現會差很多。這也是為什麼在白天訓練的語義分割模型在夜間準確率會嚴重下降的原因。為了提高卷積神經網路的泛化能力,提出很多方法。最常見的是,使用諸如隨機裁剪,隨機旋轉和翻轉之類的資料增強技術去適應陌生域。在[29],[ 30]中已對合成資料的有效使用進行了初步的探索。[31]提出了另一種基於域適應的方法,用於將語義分割模型從合成影像適應到實際環境。[32,33]還提出了類似的方法來解決魯棒的模糊場景解析。
2.3 影像風格轉換
自動GoodFellow提出GAN之後,GAN就成為了最有前途的影像風格化方法。形式上,GAN同時包含兩個模型:捕獲關鍵分佈的生成器G和估計樣本來自訓練數集而不是生成器的鑑別器D。儘管像Pix2Pix這樣在風格轉換上最先進的工作表現出眾,但兩個域中的訓練資料都必須預先格式化為單個X/Y影像對,以保持緊密的畫素相關性。最近提出的CycleGAN可以執行完整的轉換過程,並省掉每張影像配對的過程,這很適合我們執行白天和夜晚的影像風格轉換。
3. 方法
在我們的工作中提出了兩種方法來縮小語義分割中白天和夜間影像之間的差距。這兩種方法分別為將白天域影像轉換為夜間域影像和夜間域影像轉換為白天域影像。Figure1展示了我們的框架。我們訓練一個CycleGAN來執行跨域轉換。在第一種方法中,我們將夜間影像轉換為白天影像,然後在白天影像上訓練ERF-PSPNet。在第二種方法中,CycleGAN將訓練集的部分白天影像轉換為夜間影像,以擴充套件資料集的域覆蓋範圍。最後,我們用調整後的具有一定百分比的夜間影像的訓練資料訓練ERF-PSPNet,達到提高夜間語義分割模型效能的目的。
3.1 訓練CycleGAN進行晝夜跨域轉換
CycleGAN是一種在沒有配對示例的情況下學習將影像從原域轉換為目標域的方法,這符合我們的需求。CycleGAN包含兩組GAN,每一組GAN又包含一個生成器和鑑別器。生成器和鑑別器進行影像風格轉換,將影像從域X轉換到域Y或者從域Y轉換到域X。F和G代表了兩個GAN,他們生成的內容分別為當前域影像的對立域影像。我們同時訓練了G和F,並增加了迴圈一致性約束:
這種損失使未配對的影像風格轉換成為可能。在我們的工作中,選取了BBD100K資料集6000張白天影像和6000張夜間影像作為兩個影像域來訓練CycleGAN。限於GPU的記憶體,我們將影像大小調整為480*270以訓練CycleGAN。透過這種方式,我們獲得了晝夜轉換器。
3.2 在推理期間將影像轉換為白天域
第一種選擇是在推理的時候將夜間影像轉換為白天影像。更具體的說,將攝像機獲取的夜間影像用CycleGAN轉換為合成的白天影像,這是語義分割更擅長處理的域。該方法不需要再次訓練語義分割模型。換句話說,該方法的優勢在於我們可以利用經過訓練的ERF-PSPNet中的原始權重,該權重被證明在大多數資料集和實際場景中都是穩定的。此外,晝夜轉換和分割過程是分開的,這使得調整更加容易。
但這種方法的缺點在於CycleGAN轉換一張480*270的影像,前向推理花費的時間接近於1秒,這太慢了,並且語義分割系統也失去了實時效能。另外,CycleGAN合成的影像可能有一定偏差,例如可能將遙遠的建築物轉換為樹木。
3.3 產生夜間影像擴充套件資料集
第二種選擇是將帶有語義分割標籤的BBD訓練集中的部分白天影像轉換為夜間影像。然後將帶有合成夜間影像的資料集用來訓練ERF-PSPNet損失函式。這個想法來自於缺乏精確分割的夜間資料集標籤。
此方法的優點是對於訓練模型,在推理過程中不會引入額外的計算。因此,ERF-PSPNet可以保留其實時的屬性。在我們的實驗中,我們探索了合成夜間影像的比例如何影響語義分割模型的準確性。此方法的缺點是重新訓練模型的過程比較耗時,並且該模型可能並不總是對所有環境都具有魯棒性。另外,我們必須將BBD100K資料集中的影像大小調整為480*270以訓練GAN。這樣GAN只能產生大小為480*270的影像。因此,我們必須將合成影像上取樣到1280*720,然後再輸入分割模型。這樣的操作不可避免的會影響最終預測結果的準確性。
4. 結果
本文首先介紹了BDD資料集(BDD100K和BDD10K),ZJU資料集和Nighttime Driving test資料集。他們的影像解析度,白天以及夜晚影像數量,標註資訊如Table1所示:
我們選擇了BDD100K資料集中的6000張白天和黑夜影像訓練CycleGAN。對於ERF-PSPNet,編碼器部分在ImageNet上進行了預訓練,所以ERF-PSPNet所有的訓練任務都在解碼器部分的訓練中。第一種方法是在BDD10K上訓練ERF-PSPNet。推理期間夜間影像用CycleGAN即時轉換為白天域。在第二種方法中,使用BDD10K訓練集中不同比例的影像來訓練ERF-PSPNet。為了定量驗證我們的方法,在BDD10K的驗證集中使用32個帶有分段註釋的夜間影像和50個在Nighttime Driving test資料集中具有精確分段註釋的夜間影像。Nighttime Driving test資料集中的影像樣式類似於BDD10K,這使得在其上應用BDD訓練的語義分割模型是合理的。最終,模型的實驗表現如Table2所示:
可以看到,使用本文的方法,模型在夜間影像的準確率得到了較大的提升。此外,本文還探索了第一種方法在擁有不同比例夜間影像的資料集上表現,如Figure7所示。
我們可以看到使用2000張合成的夜間影像的訓練集得到的效果是最好的。然後在5000的時候曲線達到另外一個峰值,這個原因可能是5000是2000的對稱數(總數是7000),並且該模型以互補的方式從白天影像中學習紋理資訊,從夜晚影像中學習光照資訊,但是此時白天的效能已經降低到了一個較低的水平。當所有影像均為夜間影像時,IOU甚至低於 30%,這是因為合成影像中的紋理不等同於真實影像中的紋理。綜上所述,使用2000張合成的夜間影像和5000張真實白天影像的訓練集得到的效果是最好的。
5. 結論
在本文中,我們研究了夜間場景的影像語義分割問題。為了提高效能,透過CycleGAN訓練雙向晝夜轉換器,提出了兩種方法。在第一方法中,推理過程將夜間影像即時轉換為白天影像,作為預處理步驟。在第二種方法中,將訓練集的影像透過CycleGAN部分轉換為夜間合成影像,從而提高了分割模型的魯棒性。我們的實驗在三個資料集上進行了測試,並證明了該方法的有效性。總而言之,我們的方法顯著改善了夜間影像語義分割模型的效能,從而使諸如ERF-PSPNet之類的SOAT網路在夜間擁有較好的魯棒性。
參考資料:
[1] Yang, K., Bergasa, L. M., Romera, E., Cheng, R., Chen, T., and Wang, K., “Unifying terrain awareness through real-time semantic segmentation,” in [2018 IEEE Intelligent Vehicles Symposium (IV)], 1033–1038, IEEE (June 2018).
[29] Sadat Saleh, F., Sadegh Aliakbarian, M., Salzmann, M., Petersson, L., and Alvarez, J. M., “Effective use of synthetic data for urban scene semantic segmentation,” in [Proceedings of the European Conference on Computer Vision (ECCV)], 84–100 (2018).
[ 30] Xu, Y., Wang, K., Yang, K., Sun, D., and Fu, J., “Semantic segmentation of panoramic images using a synthetic dataset,” in [Artificial Intelligence and Machine Learning in Defense Applications], International Society for Optics and Photonics (2019).
[31] Sankaranarayanan, S., Balaji, Y., Jain, A., Lim, S. N., and Chell appa, R., “Learning from synthetic data: Addressing domain shift for semantic segmentation,” in [2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition], 3752–3761, IEEE (2018).
[32] Dai, D. and Van Gool, L., “Dark model adaptation: Semantic image segmentation from daytime to nighttime,” in [2018 21st International Conference on Intelligent Transportation Systems (ITSC)], 3819–3824, IEEE (2018).
[33] Sakaridis, C., Dai, D., and Van Gool, L., “Semantic nighttime image segmentation with synthetic stylized data, gradual adaptation and uncertainty-aware evaluation,” arXiv preprint arXi v:1901.05946 (2019).