阿里提出結構保持的AI視覺演算法:顯著提升HDR影像轉LDR影像質量

新闻助手發表於2024-09-23

9月21日,記者在2024雲棲大會上獲悉,阿里巴巴達摩院計算技術實驗室提出了一種基於結構保持網路的AI視覺演算法,可將高動態範圍(HDR)場景影像自動轉換為低動態範圍(LDR)影像並保持其紋理細節,在常規顯示裝置上的影像質量相比業界提升7%。

阿里提出結構保持的AI視覺演算法:顯著提升HDR影像轉LDR影像質量

HDR影像同時包含強光源照射下的極亮區域和陰影、逆光下的極暗區域,容易出現明亮區域過曝、或者黑暗區域純黑的情況,必須經過寬動態技術處理才能適配常規顯示裝置。傳統的寬動態技術由於缺失自適應的區域性與全域性處理方法,會損失大量資訊,生成結果區域性粗糙或者全域性銳化。業界也在探索基於AI的寬動態技術,最大挑戰在於缺乏成對匹配的HDR-LDR資料,難以構建完備訓練資料。

為此,該團隊創新性地提出利用雙流控制擴散網路保持影像在前向傳播過程中的結構細節和色調風格,可實現零樣本學習。具體而言,該方法採用平均值減除和對比度歸一化(MSCN)技術,提取出HDR和LDR影像的共享結構特徵作為 “橋樑”,引導擴散模型學習到HDR影像結構並維持LDR影像的色調風格,最終生成紋理細節豐富且色彩均衡的LDR影像。

基於標準的HDRPS色調對映資料集,該模型的NIQE和TMQI指標相比業界提升7.11%和0.61%。此外,達摩院團隊將模型遷移到紅外影像恢復領域,在公開的VIS-NIR資料集上取得了超過業界10%的效果。相關學術論文《Zero-Shot Structure-Preserving Diffusion Model for High Dynamic Range Tone Mapping》被國際計算機視覺與模式識別會議(CVPR)收錄為今年亮點(Highlight)。

據達摩院計算技術實驗室介紹,該技術可幫助ISP晶片實現更智慧的光線適應性和動態範圍調整,也有望與其他多種擴散模型結合,發展AIGC技術的新可能。面向圖計算、自動駕駛、多模態AI、具身智慧等新型計算需求,該團隊將持續探索軟硬體全棧創新,助力晶片產業和數字經濟發展。

相關文章