圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

機器之心發表於2018-02-26

在社交網路上,使用者每天都要使用、分享和下載圖片,但是很多高清圖片由於儲存和頻寬的壓力被人為降低了畫質。

伴隨著 2K 手機和 4K 螢幕逐漸成熟並走向市場,使用者對高清畫質的要求也在逐漸增加。但是高清顯示一直缺乏內容,成為行業發展的痛點。所以將低分辨圖片轉化為高清版本,並在各大裝置上進行檢視和分享,已成為市場的巨大需求。

今天,圖鴨釋出黑科技——Tiny Network Graphics(TNG),將解決這一痛點。

何為 TNG?

TNG 是圖鴨科技在 2018 年推出的一款影象壓縮技術,旨在在保持圖片的質量下,儘可能降低圖片的大小,使使用者在頻寬受限的網路情況下,仍然可以看到高清的影象;同時幫助圖片類企業節約大量的頻寬成本。

相比目前市面上的影象壓縮技術,圖鴨 TNG 採用了深度學習卷積網路(CNN)的編碼方式,與 JPEG 相比,壓縮率提升了 122%;與 WebP 相比,壓縮率提高了 30%。而且相比 BPG/HEIF 等圖片格式,TNG 採用了 CNN 技術而非 HEVC 編解碼器,在保證圖片質量的同時,避免了高昂的專利費用。

TNG 採用了何種方式

TNG 採用的演算法是深度學習技術中的卷積神經網路(CNN)。卷積神經網路是一種前饋神經網路,它的人工神經元可以響應一部分覆蓋範圍內的周圍,適合大型影象處理。

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

上圖是卷積神經網路的示意圖,我們看圖可以發現,它就像搭積木一樣,一個卷積神經網路由卷積、池化、非線性函式、歸一化層等模組組成。最終的輸出根據應用而定,如在人臉識別領域,我們可以用它來提取一串特徵來表示一幅人臉圖片。然後通過比較特徵的異同進行人臉識別。

在 TNG 裡,圖鴨採用了量化與反量化的技術。通過量化技術將浮點數轉換為整數或二進位制數,這時通常採用的方法是:去除浮點數後面的小數,將浮點數變成整數。在解碼端,又採用反量化技術將變換後的特徵資料恢復成浮點數,如給整數加上一個隨機小數。這樣可以一定程度上降低量化對神經網路精度的影響,從而提高恢復影象的質量。

TNG 與 WebP 對比

WebP 是谷歌推出的影像技術。它採用了 VP8 編碼核心,利用預測編碼技術,達到減少資料量、加速網路傳輸目的。其圖片壓縮體積大約只有 JPEG 的 2/3。目前 facebook 等知名網站已開始使用 WebP 格式。

下圖是 TNG 與 WebP 的 PSNR 值和 MISSIM 值對比

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

圖 1 TNG 與 WebP 的 PSNR 值和 MISSIM 值對比圖

熟悉影象壓縮的朋友可以直接通過 PSNR 和 MS-SSIM 值看出:TNG 在影象壓縮上明顯優於 WebP。

下面是在低碼字情況下 TNG 與 WebP 壓縮效果對比

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

TNG

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

WebP

圖 2 低碼字情況下 TNG 與 WebP 壓縮效果對比

相比 TNG,WebP 儘管保留了更多的細節,但是其失真更多,不利於後期恢復。而 TNG 採用了保邊濾波的方法,讓其失真更少,整體影象效果優於 WebP。

TNG 與 BPG 對比

BPG 是知名程式設計師、ffmpeg 和 QEMU 等專案作者 Fabrice Bellard 推出的影象格式,它以 HEVC 編碼為核心,在相同體積下,BPG 檔案大小隻有 JPEG 的一半。儘管 BPG 有很好的壓縮效果,但是 HEVC 的專利費很高,所以目前的市場使用比較少。

下圖是 TNG 與 BPG 的 PSNR 值和 MISSIM 值對比

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

圖 3 TNG 與 BPG 的 PSNR 值和 MISSIM 值對比圖

我們可以看到,TNG 的 MS-SSIM 值整體優於 BPG,PSNR 值在高碼字的情況下,也優於 BPG。

接下來就高碼字和低碼字兩種情況來進行壓縮影象對比。

在高碼字情況下 TNG 與 BPG 對比


圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

TNG

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

BPG

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

TNG

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

BPG

圖 4 高碼字情況下 TNG 與 BPG 壓縮效果對比

上面 4 幅圖是高碼字的情況,在實際的測試中,BPG 會出現第二張圖所示的塊狀——高頻失真導致的振鈴效應;以及第四張圖所示的顏色失真情況;而反觀 TNG 其基本不會出現這類的失真狀況。

振鈴效應是因為 BPG 在編碼壓縮時儘管圖片的不同塊內容不一樣,但採用了同一編碼引數,而導致的影象退化中資訊量的流失,尤其是高頻資訊的丟失。

顏色失真是因為 BPG 在編碼圖片時,其 YUV 通道是分開進行編解碼,產生了一些色差。

而 TNG 在編碼時考慮到了整體圖片的情況,採用了同一編碼,也就避免了上述的情況。

在低碼字的情況下 TNG 與 BPG 的對比


圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

BPG

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

TNG

圖 5 低碼字情況下 TNG 與 BPG 壓縮效果對比

上圖是低碼字情況下 BPG 與 TNG 的對比,BPG 壓縮中出現了偽輪廓和塊效應等問題,整個圖片的連續性比較差;而 TNG 的圖片連續性和物體的輪廓保持的比較好。

圖片壓縮整體對比


圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

圖 6 圖鴨 TNG 圖片格式與其他圖片格式在同一壓縮比下的 PSNR 值與 MS-SSIM 值對比

在上圖我們可以看到在高碼字的情況下,TNG 的 PSNR 是最優的。在低碼字時,其 PSNR 值也是遠遠高於 WebP 和 JPEG2000。而且不論在什麼壓縮比下,TNG 的 MS-SSIM 值都是最優的。圖鴨科技提出影象壓縮技術TNG:節省55%頻寬

相關文章