我們生活的世界是一個三維物理空間。直觀而言,三維視覺系統有助於機器更好地感知和理解真實的三維場景。三維視覺作為計算機視覺的一個比較重要的研究方向,在過去幾十年間得到了紮實和系統地發展,形成了一套完整的理論體系。近年來,隨著三維成像技術如鐳射雷達、TOF 相機及結構光等的快速發展,三維視覺研究再次成為研究熱點。在上一篇文章中,我們對 3D 視覺基礎相關內容進行了概括性總結,本文我們將進行比較深層次的介紹,主要涉及 3D 視覺演算法及其應用領域。基於視覺的目標檢測是環境感知系統的重要組成,也是計算機視覺、機器人研究等相關領域的研究熱點。三維目標檢測是在二維目標檢測的基礎上,增加目標尺寸、深度、姿態等資訊的估計。相比於二維目標檢測,三維目標檢測在準確性、實時性等方面仍有較大的提升空間。在目標檢測領域,2D 目標檢測方面發展迅速,出現了以 R-CNN、Fast RCNN、Mask RCNN 為代表的 two-stage 網路架構,以及以 YOLO、SSD 為代表的 one-stage 網路架構。然而由於 2D 影像缺乏深度、尺寸等物理世界引數資訊,在實際應用中存在一定侷限性,往往需要結合鐳射雷達、毫米波等感測器實現多模態融合演算法,以增強系統的可靠性。因此,研究者們提出了許多 3D 目標檢測方法,根據感測器的不同大致可分為視覺、鐳射點雲以及多模態融合三大類。其中視覺又包括單目視覺和雙目視覺(深度視覺)兩類;鐳射點雲包括三維點雲投影和三維空間體素特徵;而多模態融合實現了鐳射點雲與視覺的融合。下面將對現階段比較流行的 3D 目標檢測多模態融合演算法研究進行介紹。論文 1《3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection》提出了 voxel-based 的多模態特徵融合。論文地址:https://arxiv.org/pdf/2004.12636該研究提出的網路整體結構如下所示。可以看出上下兩層分別是對鐳射雷達點雲資訊的特徵提取 (voxel-backbone) 和對多張影像資訊的特徵提取與模態轉換。這裡需要提及的是由於影像資訊僅僅只有一個方向的視野,但是多個攝像頭的影像存在視野重疊,所以多張影像的資訊融合是為了保證整個環視點雲場景的特徵都被涉及到。論文 2《PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module》提出了 point-based 的多模態融合方法。論文地址:https://arxiv.org/pdf/1911.06084.pdf該研究提出了一種新穎的融合方法——基於點的 Attentive Cont-conv Fusion(PACF)模組,該模組將多感測器特徵直接融合在 3D 點上。除了連續卷積外,該研究還新增了 Point-Pooling 和 Attentive Aggregation 等元件,以使融合特徵更具表達力。此外,基於 PACF 模組,研究人員提出了一個叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多感測器多工網路,該網路負責影像分割和 3D 目標檢測任務。PI-RCNN 使用分段子網從影像中提取全解析度語義特徵圖,然後透過功能強大的 PACF 模組融合多感測器特徵。受益於 PACF 模組的效果和分段模組的有表達力的語義特徵,PI-RCNN 使 3D 目標檢測的效能大大改善。在 KITTI 3D 檢測基準測試中的實驗揭示了 PACF 模組和 PI-RCNN 的有效性,並且該方法可以在 3D AP 的度量標準上達到最新水平。論文 3《EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection》提出了一種新的融合模組,在不需要任何影像註釋的情況下,對具有語義特徵的點特徵進行逐點增強。該研究設計了一個端到端的可學習框架 EPNet 來整合兩個元件。在 KITTI 和 SUN-RGBD 資料集上進行的大量實驗表明,EPNet 優於當前最優方法。其網路結構點雲分支是 point encoder-decoder 結構,影像分支則是一個逐步 encoder 的網路,並且逐層做特徵融合。論文地址:https://arxiv.org/pdf/2007.08856.pdf融合過程由三部分組成:grid generator、image sampler 和 LI-Fusion layer。1. 根據三維鐳射與影像的外參,grid generator 將三維鐳射的每一個點投影到原始影像上;
2. image sampler 利用影像特徵圖與原始影像的比例關係以及雙線性插值,得到對應的影像特徵圖;
3. 為了減少影像的遮擋以及深度不確定性對融合造成的影響,LI-Fusion layer 利用點雲特徵估計對應影像特徵的重要程度並篩選,具體是將點雲特徵與影像特徵經過若干操作學習得到權重值,權重值與影像特徵相乘再與點雲特徵串聯作為最後的融合特徵。
論文 4《CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection》提出了一種新穎的 Camera-LiDAR 目標候選(CLOC)融合網路。CLOC 融合提供了一種低複雜度的多模態融合架構,顯著提高了單模態檢測器的效能。CLOC 在非最大抑制 (NMS) 之前對任意 2D 和任意 3D 的組合輸出候選項進行操作,並被訓練利用它們的幾何和語義一致性,以產生更準確的最終 3D 和 2D 檢測結果,最後採用 maxpooling 的方式選擇最終的融合結果。論文地址:https://arxiv.org/pdf/2009.00784.pdf 該網路由三個階段完成:1)2D 和 3D 的目標檢測器分別提出 proposal;2)將兩種模態的 proposal 編碼成稀疏張量;3)對於非空的元素採用二維卷積做對應的特徵融合。人臉識別技術在國家安全、軍事安全、金融安全、共同安全等領域具有廣泛的應用前景。人的大腦具備天生的人臉識別能力,可以輕易地分辨出不同的人。但是計算機自動識別人臉技術卻面臨著巨大的挑戰。由於二維人臉識別不可避免地受到光照、姿態和表情的影響,這些因素已成為二維人臉識別技術向前發展的最大障礙。隨著結構光和立體視覺等三維成像技術的日益成熟,越來越多的人臉識別研究人員將目光投向了三維人臉識別技術領域。1. 基於空域匹配的識別演算法
2. 基於區域性特徵匹配的識別演算法
3. 基於整體特徵匹配的識別演算法
4. 基於模型擬合的識別演算法
5. 基於 3D+2D 雙模態的識別演算法
目前 3D 公開資料少,遠少於 2D 圖片;3D 高精度資料集只能靠昂貴的裝置採集,過程繁瑣。這裡我們來了解一下現有的 3D 資料集。1. BU-3DFE (Binghamton University 3D Facial Expression) 資料集:該資料庫目前包含 100 位受試者(女性 56%,男性 44%),年齡從 18 歲到 70 歲不等,包含各種種族,包括白人、黑人、東亞人、中東人等。下載地址:http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html2. KITTI 資料集:由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯合創辦,是目前國際上最大的自動駕駛場景下的計算機視覺演算法評測資料集。該資料集用於評估 3D 目標檢測和 3D 跟蹤等計算機視覺技術在車載環境下的效能。下載地址:http://www.cvlibs.net/datasets/kitti/raw_data.php3. Cityscapes 資料集:這是一個較新的大規模資料集,它包含 50 個不同城市的街道場景中所記錄的各種立體影片序列,除了一組較大的 20000 個弱註釋幀外,還具有 5000 幀的高質量畫素級註釋。下載地址:https://www.cityscapes-dataset.com/4. Matterport 3D 重建資料集:該資料集包含 10800 個對齊的三維全景檢視(RGB + 每個畫素的深度),來自 90 個建築規模場景的 194400 個 RGB + 深度影像。下載地址:https://matterport.com/5. 3D 人臉重建相關資料集:該資料集包含用 iPhone X 拍攝的 100 名受試者的 2054 張 2D 影像,以及每個受試者的單獨 3D 頭部掃描。下載地址:https://ringnet.is.tue.mpg.de/challenge6. TUM 資料集:主要包含多檢視資料集、3D 物體的識別分割、場景識別、3D 模型匹配、vSALM 等各個方向的資料。下載地址:https://vision.in.tum.de/人臉資料庫彙總官網指路:http://www.face-rec.org/databases/人臉重建是計算機視覺領域中一個比較熱門的方向,3D 人臉相關應用也是近年來短影片領域的新玩法。不管是 Facebook 收購的 MSQRD,還是 Apple 研發的 Animoji,底層技術都與三維人臉重建有關。面部 3D 重建,可以理解為從一張或多張 2D 影像中重建出人臉的 3D 模型。對於面部 3D 重建,我們先來直觀地感受一下效果。如下動圖所示,最右邊的重建人臉除了沒有皺紋以外,身份特徵和麵部表情都和原圖相當一致,陰影效果也高度還原。只是眼睛部分似乎不太對,顯得渾濁無神。論文《FML: Face Model Learning from Videos》效果展示下圖中的合成效果也很不錯,表情動態很到位。只是可能實驗者的眼神實在太有戲,AI 表示無力模仿。論文《FML: Face Model Learning from Videos》效果展示論文《3D Face Reconstruction from A Single Image Assisted by 2D Face Images in the Wild》效果展示
論文《Joint 3D Face Reconstruction and Dense Alignment with Position Map Regression Network 》效果展示
直觀感受完面部 3D 重建效果後,我們再來探究模型背後的演算法。傳統 3D 人臉重建方法,大多立足於影像資訊,如基於影像亮度、邊緣資訊、線性透視、顏色、相對高度、視差等一種或多種資訊建模技術進行 3D 人臉重建。隨著技術的發展,研究者們又提出了基於模型的 3D 人臉重建方法,這是目前較為流行的 3D 人臉重建方法。3D 模型主要用三角網格或點雲來表示,現下流行的模型有通用人臉模型(CANDIDE-3)和三維變形模型(3DMM)及其變種模型,基於它們的 3D 人臉重建演算法既有傳統演算法也有深度學習演算法。三維變形模型(3DMM)是一個通用的三維人臉模型,用固定的點數來表示人臉。其核心思想是人臉可以在三維空間中一一匹配,並且可以由其他許多幅人臉正交基加權線性相加而來。三維空間中的每一點 (x, y, z) 實際上都是由三維空間三個方向的基量 (1, 0, 0),(0, 1, 0),(0, 0, 1) 加權相加所得,只是權重分別為 x,y,z。每一個三維人臉都可以在一個資料庫中的所有人臉組成的基向量空間中進行表示,而求解任意三維人臉的模型,實際上等價於求解各個基向量的係數問題。每一張人臉可以表示為形狀向量和紋理向量的線性疊加。任意人臉模型均可以由資料集中的 m 個人臉模型進行加權組合,如下:其中 Si、Ti 表示資料庫中第 i 張人臉的形狀向量和紋理向量。但是我們實際在構建模型的時候不能使用這裡的 Si、Ti 作為基向量,因為它們之間並非正交相關,所以接下來需要使用 PCA 進行降維分解。其中第一項是形狀和紋理的平均值,而 si、ti 則是 Si、Ti 減去各自平均值後的協方差矩陣的特徵向量,它們對應的特徵值按照大小進行降序排列。等式右邊仍然是 m 項,但是累加項降了一維,減少了一項。si、ti 都是線性無關的,取其前幾個分量可以對原始樣本做很好地近似,因此能夠大大減少需要估計的引數數目,並不損失準確率。基於 3DMM 的方法都是在求解這幾個係數,隨後的很多模型在這個基礎上新增了表情、光照等係數,但是原理與之類似。https://zhuanlan.zhihu.com/p/101330861https://my.oschina.net/u/4304462/blog/4557678https://cloud.tencent.com/developer/article/1419949https://blog.csdn.net/u011681952/article/details/82623328https://huailiang.github.io/blog/2020/face/https://yongqi.blog.csdn.net/article/details/107679240https://blog.csdn.net/u011681952/article/details/82623328