不只有結構光:機器眼中的立體世界,還在發生若干變化

naojiti發表於2018-12-17

要說AI技術裡什麼最火,機器視覺絕對算一個;而要說機器視覺技術裡什麼最火,大概毫無爭議就屬3D機器視覺了。

所謂3D機器視覺,是指在一般的機器視覺技術的基礎上,加入對立體空間中三維模型的理解。這項技術不僅涉及AI,而是一門機器視覺、圖形學與資料感知技術的交叉學科。想想也知道,讓機器認識3D畫面是非常有價值的。畢竟人的視覺理解就是3D的,想要讓AI儘量貼近真人的感知方式,3D是必須攻克的難題。

在產業場景上,3D機器視覺是無人駕駛和高精地圖的重要技術條件,在VR/AR上應用也非常廣泛,而無人機航拍與測繪也離不開這門技術。在蘋果把3D結構光技術炒火了之後,手機中的3D機器視覺也已經成為兵家必爭之地——假如說,這些厲害的技術都是賽車,那麼3D機器視覺就是他們在路上都會遇到的收費站……

今天在機器視覺頂會中,差不多會有半壁江山那麼多的論文都是跟3D有關。前沿探索可謂瘋狂進行。然而重點來了,關於這一領域,似乎大部分吃瓜群眾還是隻知道一個結構光而已。

有哪些三維影像+機器視覺的新技術趨勢,今天正隱藏在未知迷霧中眺望這個世界?今天我們來說幾種很有科幻感的技術突破點。說不定這些能力明年就會出現在你的手機、VR裝置和無人機中,又或許即將成為某個被資本瘋狂親吻的創業熱潮。

超大場景的3D資料感知

3D機器視覺包括很多方面,既有讓智慧體去理解3D資料,也包括如何通過機器視覺的解決方案,去獲取3D模型資料。

傳統意義上的3D資料獲取,或者稱其為3D感知技術,一般來說可以利用多角度拍照或者深度感測器的方式實現3D資料收集。這種技術的侷限在於,收集的3D資料不能太大。

然而在3D資料要求不斷升級的今天,對於超大場景的3D資料感知,正在成為一個熱門議題。比如無人駕駛中使用的城市高精地圖,就可以看做一個個超大3D場景的拼接。智慧城市領域運用到的很多城市資料推演,也要根植於對城市3D場景的收集。

不只有結構光:機器眼中的立體世界,還在發生若干變化


機器視覺正在為超大場景的3D資料感知提供很多新的方法。比如自動化的成像方法,像視覺SLAM線上處理連續幀的影像,實現實時重建巨大3D場景。再比如說對航拍資料進行點雲分割和點雲資料的語義理解,幫助快速低成本獲取城市3D資料。

總體來看,今天超大場景的3D資料感知,有三個主要應用方向,很可能分別成為各自技術領域中新的投資和創業熱點:

1、建築物的3D高精度模型,運用在工程監理、智慧設計、物流和智慧城市領域。

2、高精地圖與3D資料感知的結合,這是無人駕駛的重要一環。

3、室內外一體的3D建模,這對於智慧家居設計、環境監控、VR/AR體驗來說都有重要幫助。

手機與3D視覺進入蜜月期

3D結構光,今天已經當之無愧成為了高階手機的標配,成為了繼雙攝、三攝與屏下指紋之後又一個手機行業爭搶的熱點。

然而手機上的3D視覺技術遠不止於結構光,從演算法、感測硬體,到影像系統解決方案,都可能成為手機與3D視覺進一步耦合的關鍵因素。

今天來看,有3個相關趨勢非常可能成為明年的熱點。一個是基於晶片端進行的3D視覺演算法加速,這很可能成為手機AI的下一個進化方向。第二個是高糾錯能力的3D視覺演算法將會普及,在終端實現3D資料收集和本地建模將會成為新的熱點。第三個是後置攝像頭加入3D視覺解決方案指日可待。

從晶片端,到開發平臺,再到資料集、感測系統,3D機器視覺正在多個領域影響手機戰場的走向,在這些領域儲備技術武器,也很可能成為明年手機戰場廝殺的關鍵節點。

不只有結構光:機器眼中的立體世界,還在發生若干變化


AR/VR中的位姿估計技術

為什麼我們在玩AR體驗的時候,經常會覺得手機裡的東西放在攝像頭視野中並不真實,像是漂浮在地板上一樣。

這就是因為位姿估計演算法不夠精準,無法正確定位物體的空間關係。在機器視覺技術的進化下,今天很多位姿估計技術正在同步進化。比如基於動態特徵提取演算法,達成的動作定位今天已經比較成熟。

這東西聽起來挺玄乎,到底是幹啥用的呢?它的最大應用場景,就是在VR/AR正確處理場景中動態物體的空間關係和運動軌跡。比如你在VR裡玩踢球遊戲,球應該在什麼位置挨踢,以什麼軌跡撞牆,都有賴於位姿估計演算法來校準。

在機器視覺演算法的幫助下,更精細的位姿估計正在到來,而這也加速了成熟MR體驗的到來。另一方面,在VR裝置或者手機當中,基於攝像頭與感測器協同運作來完成位姿估計,也是沉浸技術中即將發生的一個亮點。

不只有結構光:機器眼中的立體世界,還在發生若干變化


通過散亂資料達成三維建模

3D機器視覺的最重要任何,肯定是基於資料來實現3D建模。這個應用在產業端十分重要,地理資訊系統、勘探、工程,以及無人駕駛,都需要大量的3D建模工作來參與。

而消費者級的3D建模今天也在到來,我們已經可以看到在手機端通過3D結構光來完成資料收集,從而達成3D建模的玩法。

跟3D感知一樣,3D建模也是利用攝像頭或者感測器來收集資料,最終通過不同的解決方案完成建模。

然而這個領域還是有很多問題等待解決。比如說,今天我們進行3D建模時,還需要非常痛苦的一點點收集資料,必須保證資料的對齊和精準排列。否則出來的3D模型就是雜亂無章的。這顯然讓大眾完3D建模的熱情減退,並且給很多工程級專案增添了非常多難度。

AI的到來,正在幫助這種情況有所改變。在深度學習演算法的幫助下,機器視覺領域正在研究如何在散亂、不規則、巨大數量的資料中完成3D建模。這需要對抗生成以及先驗表示等非常多的方案,但帶來的效果非常值得期待。

不只有結構光:機器眼中的立體世界,還在發生若干變化


比如說今天已經有3D建模方案,在深度學習的幫助下實現對密林的重建。然而其用來進行點雲建模的影像資料中,有很多被樹葉遮擋的部分。這時候就可以用AI來增強3D建模的先驗知識,主動“腦補”出遮擋物背後的真實樣子。

不僅是修復遮擋模型和瑕疵資料,機器視覺技術與3D建模的融合,還可以讓很多無人裝置具有更雪亮的“眼睛”。比如無人駕駛汽車,或許可以基於“大腦”中的3D建模演算法,來腦補智慧攝像頭尚未發現的環境。這點在複雜立交橋和停車場中格外有用。

在消費者端,3D建模與機器視覺的結合也將帶來新的想象力,比如消費者可以根據照片來重建精準的3D模型,或者傻瓜式完成建模要用的資料收集。讓不那麼專業的人也能建設出專業的3D模型,這個改變背後的想象力驚人。

更好的深度感測器解決方案

還有一個機器視覺技術和3D的交匯,主要發生在無人機領域。

無人機今天進行測繪和航拍時,必須附帶對空間的理解能力,否則拍照不準事小,撞了南牆事大。而這個能力主要來自於攝像頭和感測器進行空間閱讀。

隨著消費級無人機的不斷升級,人們對無人機拍攝效果要求也不斷升高。無人機必須不斷在更遠的距離、更極端的天氣、更復雜的運動中拍攝畫面。然而傳統的感測系統解決方案已經快要跟不上使用者的期許。

今天的消費級無人機,一般採取兩種感知解決方案,一種是雙目視覺技術,比如大疆的某些產品;一種是結構光感測器,比如微軟的Kinect。而這兩種主流方案都是有一定侷限的,比如感知範圍都有限,難以完成遠距離作業。再比如雙目視覺技術在黑夜中會失靈,所以無人機夜拍一直是個大坑,然而結構光技術應對不來強光,一到中午無人機就石樂志也是很心塞的。

更好的解決方案,在於將感測器與智慧攝像頭結合起來,達成可以適應不同天候與天氣,並且可以長距離感知的新型感測系統解決方案。

今天,用機器視覺技術中的很多演算法,協調不同的感測裝置工作,讓無人機變成“多眼無人機”,正在成為流行的解決方案。機器視覺演算法大量加入無人機感測器,還可能帶來軌跡拍攝能力提升,讓無人機獲得拍攝整體環境,或者精準捕捉動態物體,比如說運動中的動物和車輛的能力。

不只有結構光:機器眼中的立體世界,還在發生若干變化


以上幾個技術趨勢,都可能成為機器視覺和圖形學應用的下一步熱點。這個領域看似偏門,事實上卻能影響今天科技市場中的風吹草動。

讓機器看到立體世界的遊戲才剛剛開始,機器與人類在某一天可以用同樣的視角相互凝視,或許才是這個故事的終點。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2285526/,如需轉載,請註明出處,否則將追究法律責任。

相關文章