網紅女神是怎麼誕生的-深度學習影象分割技術

李博Garvin發表於2018-06-07

這個技術能幹啥

咋一說影象分割技術,或者更專業一點的叫法“影象語意分析”技術有哪些用途。大家可能還不一定能馬上想出來,其實這個東西正在影響著我們的生活。我也是短視訊軟體的中毒使用者,上面有特別多的美女網紅,甚至發現過高中同學長得一般的妹子也成了網紅女神。這一切的原因是什麼的?就是短視訊軟體可以很好地將人像摳圖,把該瘦的地方瘦,該大的地方大。

這種分割技術也能在其它很多領域應用,比如說影象虛化,過去是需要用單反相機通過對焦以及引數調節的方式才能實現,現在用演算法可以方便的把人物背景虛化:
1.輸入圖片
這裡寫圖片描述

2.找到圖片中的人的輪廓,做分割

這裡寫圖片描述

3.背景虛化

這裡寫圖片描述

另外這種技術在一些日本影片的大碼方面也有特別多的用途,想必很多同學已經領略過了,接下來就介紹下實現原理。

簡述原理

影象分割技術有很多種,原理各不相同,最近比較主流也是效果比較好的技術就是利用深度學習來做。深度學習中常用CNN和FCN做影象分割,對於CNN其實在早一些的文章我也有講過,CNN是可以通過卷積將影象向量化,然後通過全連線層實現分類。影象分割其實跟影象分類有點像,影象分類的核心原理就是找到一張圖的核心feature,如下圖,飛機這個輪廓就是這張圖的核心思想。把feature用向量表述出來,再比較向量距離就實現了分類,如果是把這些熱力圖的feature通過概率密度函式出來就是影象分割技術。

這裡寫圖片描述

CNN和FCN是兩種卷積網路,它們有什麼區別呢?下面這張圖表述的很清楚:

這裡寫圖片描述
這個圖分上下兩部分,上面講的是用CNN做切割,圖片通過不斷地卷積和pooling變成了一維向量,然後通過向量距離的方式分類。下方的FCN保留了影象的原始結構,也就是最終計算出的結果是一個二維矩陣,最終的分類評分是針對一個二維影象進行,而不是一維向量。

與傳統CNN相比FCN的的優缺點如下:

優點:

①可以接受任意大小的輸入影象,而不用要求所有的訓練影象和測試影象具有同樣的尺寸;

②更加高效,避免了由於使用畫素塊而帶來的重複儲存和計算卷積的問題;

缺點:

①得到的結果還是不夠精細。進行8倍上取樣雖然比32倍的效果好了很多,但是上取樣的結果還是比較模糊和平滑,對影象中的細節不敏感;

②沒有充分考慮畫素與畫素之間的關係,也就是丟失了空間資訊的考慮;

ok,具體的關於FCN的實現細節還需要仔細研究這篇paper:
https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf
等讀完再跟大家分享,謝謝。

相關文章