論文地址:https://arxiv.org/pdf/2103.14910.pdf
專案地址:https://github.com/vincentfung13/MINE
一個模型只能表達一個場景,且最佳化一個場景耗時久;
per-pixel 渲染較為低效;
泛化能力較差,一個場景需要較多的照片才能訓練好。
Encoder 是一個全卷積網路,輸入為單個 RGB 圖片,輸出為 feature maps;
Decoder 也是一個全卷積網路,輸入為 encoder 輸出的 feature map,以及任意深度值(repeat + concat),輸出該深度下的 RGB-sigma 圖片;
最終的三維表達由多個平面組成,也就是說在一次完整的 forward 中,encoder 需要 inference 一次,而 decoder 需要 inference N 次獲得個 N 平面。
利用 homography wrapping 建立畫素點間的 correspondence。可以想象,從 target 相機射出一條光線,這條光線與 target 圖片的一個畫素點相交,然後,研究者延長這條射線,讓它與 source 相機視錐的各個平面相交。相交點的 RGB-sigma 值可以透過 bilinear sampling 獲得;
利用 volume rendering 將光線上的點渲染到目標圖片畫素點上,獲得該畫素點的 RGB 值與深度。
與 NeRF 相比,MINE 能夠泛化到訓練集沒有出現過的場景;
與 NeRF 的逐點渲染相比,MINE 的渲染非常高效;
與 MPI 相比,MINE 的深度是連續的,能稠密地表示相機的視錐;
MPI 透過 alpha 合成(alpha compositing)進行渲染,但該方法與射線上點之間的距離無關,而 MINE 利用 volume rendering 解決了這個限制。
由於輸入是單張圖片,MINE 無法表達相機視錐以外的三維空間;
由於 MINE 的輸入裡沒有觀察角度,所以其無法對一些複雜的 view-dependent 效果(如光碟上的彩虹等)進行建模。