曹汛:計算攝像學研究 | VALSE2017之十六

深度學習大講堂發表於2017-12-13

編者按:攝像,攝萬物之象。經典攝像方法在成像的各個維度——空間解析度、時間解析度、視角及深度、顏色(光譜)等均已達到瓶頸,而計算攝像能夠突破經典成像模型和相機硬體的侷限,更加全面、精確地捕捉真實世界的視覺資訊。計算攝像學是一門綜合訊號處理、光學、視覺、圖形學等多學科知識的交叉研究領域。在本文中,國內第一部真人CG電影《爵跡》的幕後英雄,南京大學的曹汛教授,將從計算攝像學的常用原理和思想出發,重點介紹光譜視訊計算攝像、光場成像等計算攝像學領域的經典研究。大講堂特別在文末提供文章以及程式碼的下載連結。


曹汛:計算攝像學研究 | VALSE2017之十六

今天的報告主要從計算攝像的基礎原理和思想出發,重點介紹我十幾年來主要做的光譜視訊相機,並介紹一些著名的計算攝像研究方向和系統。

曹汛:計算攝像學研究 | VALSE2017之十六


計算攝像學是一個新興的交叉學科,其英文名是Computational Photography ,在 視覺(CVPR/ICCV)以及圖形學 (SIGGRAPH) 等會議中都有相關的 track。但是在近十幾年中,會議中計算攝像track的論文比例較低,例如在 CVPR 中,每年幾百篇接受的論文中只有二十幾篇這個方向的論文。這其中的原因主要在於它涉及到硬體系統,研究週期比較長。其背景包括光學、電路以及演算法,將新的計算理論引入到成像過程。與傳統的影像、視訊處理技術在獲得資料後再進行處理相比,計算攝像研究希望能夠通過更早地介入成像的過程,增強影像和視訊的採集效率和效能。


曹汛:計算攝像學研究 | VALSE2017之十六


目前,國際上諸如M.I.T.、Stanford、CMU等學校都開設了計算攝像相關的課程。在國際上有一些實驗室專注於研究這個方向,如 Stanford 的SCI實驗室、M.I.T. 的 Media Lab、以及杜克大學、以色列理工等等。國內清華大學、南京大學、北理工、中科大、北航、西電等高校以及中科院等科研院所也均開展了相關的課程教學和研究工作。


成像簡史的三次革命


曹汛:計算攝像學研究 | VALSE2017之十六


第一次革命:光學元件

我非常崇敬的計算攝像學領域的大師 David Brady教授,在國際上講computational photography時常用這樣一頁Slide,我將它翻譯過來放在這裡。在這裡,早期的光學成像裝置起源於義大利佛羅倫薩,他們設計了類似於現在眼鏡的裝置(Spectacles),以此來進行光學成像,而世界上最早的望遠鏡鏡頭設計圖紙如上圖所示。(致謝David Brady教授)

我個人認為,世界上最早的成像其實在公元前400年,我們中國的墨子就發現了做一個小孔的裝置就可以成像(小孔成像原理)。在我的建議下,David Brady教授在國際上做報告時也將墨子這一部分加入他的成像歷史簡介中。可以說,第一次成像革命中,人們意識到設計各式各樣的光學裝置可以進行成像,而那個年代,成像得到的影像和視訊並不能儲存下來,更談不上影像處理、以及現在如火如荼的視覺研究了。


曹汛:計算攝像學研究 | VALSE2017之十六


第二次革命:光化學和微電子

第二次革命使得成像有了記憶(memory),人們主要發明了兩種方式可以將影像記錄下來:其一是光化學的方法(如傳統的膠片),其二是隨著微電子的發展,積體電路可以做數字成像器件(如CCD、CMOS, CCD得到了2009年的諾貝爾獎)。將影像記錄下來,為影像處理和分析提供了可能。


曹汛:計算攝像學研究 | VALSE2017之十六


第三次革命:計算攝像

而現在的計算攝像讓我們可以更早地介入成像的過程,對於處理影像時無法實現的指標,可以在成像的過程中就加入一些“計算”和“智慧”的因素。


曹汛:計算攝像學研究 | VALSE2017之十六


下面舉幾個例子,比如在空間維度上,現在手機相機的畫素一般在1200萬左右,而人類眼睛的最高畫素集中區域大概在億畫素量級,那麼,如果達到十億畫素是什麼樣的呢?


曹汛:計算攝像學研究 | VALSE2017之十六


David Brady教授於2012年在 Nature上發表了一篇關於十億畫素相機的文章[1],之後一直在做這個技術的產業化,他現在就想把美國的橄欖球比賽做成一個十億畫素的直播,這涉及到了很多資料處理和資料傳輸問題。如果有十億畫素的話,觀眾就可以在直播中一直追蹤喜歡的球星。並且由於解析度特別高,在直播中切換視角時會有一種身臨其境、漫遊的感覺。


曹汛:計算攝像學研究 | VALSE2017之十六


在時間維度上,高速攝像是人們一直追求的目標。比如在1964年,MIT 就做了一個子彈穿過蘋果的 photography;在2000年,電影《黑客帝國》中有每秒一萬幀的拍攝鏡頭。那麼如果拍攝速度達到光速,也就是每秒萬億幀,會是什麼樣的情形呢?我的同事,Di Wu博士做了一個工作(CVPR, 2012 Oral),就捕捉到了一束光穿過可樂瓶的過程,直到此時,光速級別的成像也變成了可能。


曹汛:計算攝像學研究 | VALSE2017之十六


我們客觀的世界是三維的,除了空間和時間維度,我們還關注影像的深度和視角,光場相機(Light Field Camera)是這裡的一個典型代表,它也是計算攝像學的一個典型的代表。Lytro公司前一陣融資幾千萬美元,要做電影級別的一個系統。圖中展示了當年的美國十大發明:世界上第一臺手持式光場相機,可以對深度進行層析以及重聚焦。光場技術對於現在的 VR/AR應用很重要,因為現在普遍的VR應用只改變視角,並不能改變focus(聚焦點)。


曹汛:計算攝像學研究 | VALSE2017之十六

總結來看,成像包含空間、時間、視角和深度、以及光譜等多個維度。下面,我主要介紹我研究的光譜維度,或者說顏色維度。


光譜視訊成像研究


曹汛:計算攝像學研究 | VALSE2017之十六


人能看到彩色的世界,所以一直追求彩色成像。最早的彩色成像源於1908年,諾貝爾獎獲得者 Gabriel Lippmann利用光的波動性設計了一個非常複雜的裝置通過反演光的波長來得到顏色,但由於其高昂的成本和龐大的體積並沒有投入實用。

後來,人們普遍採用James Clerk Maxwell提出的三原色(紅綠藍, RGB) 來合成彩色照片,圖中顯示了1861年拍攝到的世界上第一幅三色彩色影像照片。通常的成像在顏色維度有 RGB 三個分量,而光譜成像能在顏色維度上提供更多的資訊。


曹汛:計算攝像學研究 | VALSE2017之十六

在一般的成像過程中,給定一個場景,當光照射到這個場景上會產生反射,如藍色的衣服會更好地反射藍顏色光,而吸收絕大多數的綠色和紅色光。當光反射到影像感測器上,會對光不同的波長產生不同的響應,通過對光波長變化的函式進行積分來得到數字影像,影像上積分的值經過量化可以得到每個畫素的量化值,通常輸出為8bit,在影像處理中用0-255的數值表示。


曹汛:計算攝像學研究 | VALSE2017之十六

那麼如何進行彩色成像呢?有一個很著名的專利—“拜耳濾波”,它將 RGB 相間的濾波片放到影像感測器前面來進行彩色成像。每個顏色的濾波器都有一個響應函式,在不同的波段上進行積分就能得到每個畫素上 RGB 各8bit共24bit 的資料,也就是通常說的24位真彩色。在拜耳濾波中分別有1個 R 和 B,而有2個G,之所以多用了一個綠顏色分量,是因為人的眼睛對綠色是最敏感的,這樣處理之後影像解析度的損失會降到最低。


曹汛:計算攝像學研究 | VALSE2017之十六


現在的問題是,我們想設計一個相機,使得光在反演到畫素上時不僅僅是 RGB三通道,而是得到更多的顏色通道,即獲得原始的光譜曲線。


曹汛:計算攝像學研究 | VALSE2017之十六


之所以要做光譜成像,是因為從光譜中我們能得到更多的顏色資訊:例如在汙染物鑑別中,僅根據 RGB 我們很難知道是什麼汙染物,但是通過光譜曲線我們就能知道其具體種類。針對不同的材質可以得到不同的光譜曲線,在藥品成分鑑別和工業材料鑑別中都能完成 RGB 影像中很難實現的任務。


曹汛:計算攝像學研究 | VALSE2017之十六


光譜視訊成像很難,我認為它本質上是大資料問題。它的難點在於如何在短曝光時間內獲取高維光譜資訊(一秒鐘百萬空間畫素、60個光譜通道、30fps的光譜視訊就有2GB的資料通量);同時,構建實際的視訊成像系統也具有相當的挑戰性。


曹汛:計算攝像學研究 | VALSE2017之十六


對於傳統光譜儀而言,一種方式是轉輪濾波式,去逐波段地掃描,另一種方式是空間掃描式,空間上掃描得到其光譜,後將光譜堆疊起來,本質上是犧牲時間來換取光譜資訊。因此,傳統的光譜儀採用時序或者空間掃描光譜,都是犧牲時間來換取光譜,無法獲取視訊資訊,且需求機械穩定,價格較昂貴。


曹汛:計算攝像學研究 | VALSE2017之十六


如果想得到光譜視訊資訊,其核心問題是資料量很大,國際上提出兩個方法來解決這一問題:

其一是利用訊號處理中的壓縮感知理論(CASSI,Coded Aperture Snapshot Spectral Imager),即通過低維資料來表示高維資料;

其二是借鑑醫學中的CT(Computed Tomographic)原理,將三維的光譜矩陣投影到各個方向,並對其進行重建來實現光譜視訊。

針對上述問題,我們通過十年攻關,重點研究了稜鏡-掩模調製式光譜視訊相機(Prism-mask Modulation Imaging Spectromter,PMIS)。



曹汛:計算攝像學研究 | VALSE2017之十六

曹汛:計算攝像學研究 | VALSE2017之十六


PMIS1原理

其原理很簡單,我們在光路上放置一個稜鏡將光散到不同的波段,然後在光路上再放置一個掩膜(mask)以防止光路之間發生混疊,這樣就能在影像感測器上得到光譜曲線,並以此生成 RGB 影像。我們為了獲取光譜視訊且不想犧牲時間,所以我們放棄了空間解析度,因此得到的影像解析度特別低。


曹汛:計算攝像學研究 | VALSE2017之十六


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS光譜相機應用——材質鑑別&活體檢測

我們的這種方法可以用於材質鑑別,通過光譜資訊來對材質進行分析,如上第一個圖,同為藍色但不同材質的東西,通過光譜對它進行區分,發現裡面隱藏了“CV”字樣。還可以用於活體識別,由於血紅素的作用,真實的人在皮膚上會有一個 W 型的光譜曲線,所以可以用來鑑別是否是人的活體。


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS1總結


第一代光譜相機通過犧牲空間資訊來進行快速的光譜視訊拍攝,其問題是空間解析度比較低,只有千級畫素,為了突破這個侷限,我們搭建了第二代系統—PMIS2。


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS2核心思想:混合相機系統(使用邊資訊)

在很短的時間內捕捉很大的資料量是非常困難的,所以我們採取了另一種方法,在光路上新增一個RGB 感測器,通過分光的方法同時使用 RGB相機和光譜相機來捕捉影像。這樣就能在 RGB 相機中得到空間解析度高但光譜解析度低的影像,在光譜灰度相機中得到空間解析度低但光譜解析度高的影像。


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS光譜相機應用——自動白平衡

我們搭建了新的計算攝像系統PMIS2並進一步驗證了其在視覺領域的應用,比如:自動白平衡。在一個紅色和黃色居多的暖色調場景、或者光源不斷變化的場景中,普通相機的白平衡很容易出錯,而我們這一系統則能很好地完成自動白平衡這一任務。


曹汛:計算攝像學研究 | VALSE2017之十六


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS相機應用——目標跟蹤

另外一個應用場景是目標跟蹤[4]。在目標跟蹤任務中,當目標進入到與其顏色相同的背景中時很難進行跟蹤,因為目標與背景的 RGB 顏色相同,但是其光譜曲線有所不同,也就是在 RGB 空間中目標和背景是很難區分的,而在光譜空間中目標和背景非常容易區別,所以我們可以通過光譜資訊來對目標進行跟蹤。

在使用 RGB 跟蹤時,當目標進入到顏色相同的背景中時就會立即丟失跟蹤目標。例如,對於一個隱藏在樹林中的人,很難使用 RGB 進行跟蹤,但是使用光譜就能很好地跟蹤。


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS2總結

PMIS2[5]為了突破空間的限制,採用了混合光路的思想來同時實現高光譜和高空間解析度,並同時保持較高的時間解析度。


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS3核心思想


之前的 PMIS 系統的掩膜(mask)都是均勻分佈的(uniform),但是在不同的場景中,資訊量的分佈很可能是不均勻的,所以我們考慮能否動態地改變掩膜,使其自適應場景內容,這就是 PMIS3[6]系統。


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS3原型相機


我們在光路上新增一個可程式設計的空間光調製器來對場景光進行動態取樣。


曹汛:計算攝像學研究 | VALSE2017之十六


曹汛:計算攝像學研究 | VALSE2017之十六

PMIS光譜相機應用——汙染物識別和真假臉識別

這是一個例子,對於假臉和真臉,我們能夠一直跟蹤到真實的臉。


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS系統總結

PMIS與傳統的光譜相機相比具有瞬拍能力(snapshot),與 CTIS/CASSI相比具有更低的重建誤差,更低的光學系統複雜度,能夠做到實時視訊輸出。


曹汛:計算攝像學研究 | VALSE2017之十六


曹汛:計算攝像學研究 | VALSE2017之十六


PMIS系統應用——手持式PMIS光譜視訊相機

我們將 PMIS 系統整合到一個相機裡,現在已經能夠小型化為一個手持相機。並有配套的軟體,可以實時輸出光譜,調整相機的引數,以及選擇需要的光譜通道。


曹汛:計算攝像學研究 | VALSE2017之十六
曹汛:計算攝像學研究 | VALSE2017之十六


我們也做了一個軟體,可以用GPU實時地輸出光譜資訊,在動態場景下調節相機引數,可以自由選擇想得到的光譜通道,比如128個或者64個。通過這個軟體,也可以看各個光譜通道。


曹汛:計算攝像學研究 | VALSE2017之十六


回到最初的問題,我認為光譜視訊採集本質上是一個基於大資料的訊號處理問題,所以去年我和 David Brady教授合作寫了一篇關於光譜視訊成像的訊號處理理論的論文[7],並考慮能否通過光學和硬體結構實現不同的取樣方式,希望能對未來的光譜成像研究有一些啟發。


曹汛:計算攝像學研究 | VALSE2017之十六


我目前在南京大學計算成像實驗室(CITE Lab)工作,我們實驗室目前主要研究光譜、光場、單晶片10億畫素(Giga-pixel)這三個方向,歡迎大家前來交流並指導。


曹汛:計算攝像學研究 | VALSE2017之十六


曹汛:計算攝像學研究 | VALSE2017之十六


另外值得一提的是,國際上有計算攝像的專門會議,目前參加的華人還比較少。有一次會議很有趣,請學者們自己投票,覺得計算攝像領域有什麼問題最值得研究,結果得票第一名的是散射介質成像問題。散射介質成像是計算攝像學(Computational Photography)中具有挑戰性的一個任務。散射介質普遍存在,如在生物觀測中,細胞就是一個散射介質;在對地遙感觀測中,很多湍流也是散射介質;在大範圍監控中也存在散射介質,如雨、霧和霾。


曹汛:計算攝像學研究 | VALSE2017之十六


最後為大家介紹一個相關期刊,IEEE Transactions on Computational Imaging,這是由 IEEE Transactionson Image Processing 衍生出的一個期刊。因為近年來 TIP 的很多投稿都更早地介入了成像過程,運用了計算攝像的相關理論和技術,所以就將很多相關的論文向這個期刊導流,歡迎大家加入到計算攝像的研究中,玩味各種新型的相機以及攝像本身的快樂!

曹汛:計算攝像學研究 | VALSE2017之十六

文中引用文章的下載連結為: 

http://pan.baidu.com/s/1skMR6OH

相關文章