隨著深度學習的快速發展,計算機視覺與語音識別、自然語言處理共同構成了人工智慧的三個關鍵應用技術。計算機視覺賦予機器感知和認知世界的功能。
基於行業發展需求,國家智慧財產權局專利分析普及推廣專案人工智慧關鍵技術課題組從計算機視覺技術專利整體現狀,智慧安防、自動駕駛和醫療影像三大應用領域專利佈局,對計算機視覺技術進行了深度剖析。
專利整體現狀
受益於深度學習演算法的最佳化、計算能力的突破以及資料的積累,計算機視覺技術從2012年開始快速迭代,不斷推陳出新。2012年,ImageNet大規模視覺識別挑戰賽中,冠軍團隊使用深度學習演算法將識別錯誤率降低了10%,成為影響人工智慧程式的里程碑事件,從此計算機視覺技術商業化落地能力不斷提高,迎來了突破性發展。
伴隨著技術的創新與突破,全球計算機視覺技術專利申請量開始激增,呈現指數增長,從2010年的200多件激增至2016年4000多件。中國近年來專利申請量連續取得世界第一,再加上中國對人工智慧技術的重視,又是世界上最大的目標市場,因此中國以67.7%的佔比,排在目標國申請量的首位,美國以近22%位居第二。
計算機視覺應用領域
01 助力智慧安防
隨著安防產品應用領域的不斷擴張,傳統安防技術的計算能力不足以應對日益增長的影片和影像資料,識別效率和識別準確率也阻礙安防產業進一步發展。計算機視覺技術中人臉識別技術具備超越人眼的實時識別準確率,與安防使用場景契合度較高,已成為智慧安防的關鍵技術之一。
智慧安防中的人臉識別演算法經歷了早期演算法、人工特徵+分類器、深度學習三個階段。早期演算法有基於幾何特徵的演算法,基於模板匹配的演算法,子空間演算法等多種型別,這些演算法嚴重依賴訓練集和測試集場景,且對光照、人臉的表情、姿態敏感,泛化能力不足,不具有太多的實用價值;第二階段的人臉識別演算法普遍採用了人工特徵+分類器的思路,部分解決了光照敏感問題,但還是存在姿態和表情的問題;目前利用深度學習的人臉識別演算法已成主流,極大地提高了智慧安防實時監控精度,推動這一技術真正走向實用。
2013年,臉書(Facebook)的Yaniv Taigman等人提出了DeepFace演算法,該演算法基於檢測點實現人臉檢測,透過對檢測後的圖片進行二維裁剪,將人臉部分裁剪出來,然後轉換為3D模型,利用CNN模型對3D模型進行特徵提取、歸一和分類完成人臉識別。DeepFace演算法是人臉識別的奠基之作,直接影響了後續的DeepID和FaceNet等演算法。
同年,香港中文大學的湯曉鷗教授及其團隊提出了DeepID演算法,並憑藉該演算法參加2014年ImageNet大規模物體檢測任務比賽獲得第二名優異成績。隨後團隊對DeepID演算法進行改進提出DeepID2演算法。DeepID2採用深度學習的方法來提取人臉高階特徵,其採用的CNN網路結構共為10層,包括輸入層、4個卷積層、3個池化層、1個DeepID層和1個Softmax層;在提取特徵後,使用了Joint Bayesian和Neural Network兩種方法進行區人臉比對,最終得出識別結果。
同年,谷歌的Christian Szegedy等人提出了Inception網路結構,該結構構造了一種“基礎神經元”結構,來搭建一個稀疏性、高計算效能的網路結構,將CNN中常用的卷積(1x1,3x3,5x5)、池化操作(3x3)堆疊在一起(卷積、池化後的尺寸相同,將通道相加),一方面增加了網路的寬度,另一方面也增加了網路對尺度的適應性。谷歌基於Inception搭建了GoogleNet。GoogleNet憑藉其優秀的表現,得到了很多研究人員的學習和使用。隨後,谷歌的Philbin James William等人又提出了FaceNet,與其他的深度學習方法在人臉上的應用不同,FaceNet並沒有用傳統的softmax的方式去進行分類學習,然後抽取其中某一層作為特徵,而是直接進行端對端學習一種從影像到歐式空間的編碼方法,然後基於這個編碼再做人臉識別、人臉驗證和人臉聚類等;將影像輸入卷積神經網路去掉sofmax後的結構,經過L2的歸一化,然後得到特徵表示,基於這個特徵表示計算三元組損失,其可使用兩種卷積神經網路結構,第一種是Zeiler&Fergus架構,22層,第二種是GoogleNet式的Inception模型。在LFW上,使用了兩種模式:直接取LFW圖片的中間部分進行訓練,效果98.87左右;使用額外的人臉對齊工具,效果99.63左右,超過DeepID。
2014年至2016年期間,GoogleNet團隊對GoogleNet進行了進一步的發掘改進,研發出了Inception v2,Inception v3和Inception v4。最終基於Inception v4提出了inception-ResNet-v2。專利(申請號:US15395530)披露了將nxn的卷積透過1xn卷積後接nx1卷積來替代以加速計算,又可以將1個卷積拆成2個卷積,使得網路深度進一步增加,增加了網路的非線性;或者使用了兩個並行化的模組(卷積、池化並行執行,再進行合併)來降低計算量,以及將ResNet與Inception 結合。
同在2016年,谷歌的Barret ZOPH等提出了NasNet,並以此提交了專利申請(申請號:US62414300)。這個模型並非是人為設計出來的,而是透過谷歌很早之前推出的AutoML自動訓練出來的。該專案目的是實現“自動化的機器學習”,即訓練機器學習的軟體來打造機器學習的軟體,自行開發新系統的程式碼層,它也是一種神經架構搜尋技術(Neural Architecture Search technology)。其模型就是基於AutoML首先在CIFAR-10這種資料集上進行神經網路架構搜尋,以便AutoML找到最佳層並靈活進行多次堆疊來建立最終網路,並將學到的最好架構轉移到 ImageNet 影像分類和COCO物件檢測中,其在影像分類任務中表現極為優秀。
為了更好地適應移動端平臺,2017年,谷歌的Howard Andrew Gerald等推出了MobileNet。該技術使用了一種稱之為deep-wise的卷積方式來替代原有的傳統3D卷積,減少了卷積核的冗餘表達,在計算量和引數數量明顯下降之後,卷積網路可以應用在更多的移動端平臺。其他創新主體也圍繞移動端應用進行大量技術創新,如透過神經網路模型的壓縮、大型網路的特性遷移至小型網路等。
02 賦能醫療影像
傳統的醫學影像依賴於醫師根據影像提供的資訊進行診斷,而計算機視覺技術為醫療影像帶來了新機會。自2006年,全球涉及醫療影像的計算機視覺相關專利近2000件。
醫療影像的計算機視覺技術可以分為前期的影像獲取,中期的影像處理,以及後期的影像診斷。影像獲取進一步細分為影像構建、影像生成、目標跟蹤,影像處理包括影像增強、影像修復、影像分割,影像診斷分為影像匹配、影像構建、影像分類。無論從專利佈局數量還是佈局質量,西門子、通用電氣和飛利浦是該領域最重要的專利申請主體。三家企業在醫療影像構建、醫療影像生成、醫療影像增強和醫療影像修復等細分技術均進行了大量的專利佈局,上述專利技術主要關注如何透過計算機視覺技術更高效地分析處理醫療資料,提升影像檢測裝置的效能,使其能獲取更加準確、更加豐富的資訊。
03 革新自動駕駛
除了智慧安防、醫療影像,視覺技術在自動駕駛方面的應用越來越受到眾多科技型企業、感測器企業、汽車企業的重視。自動駕駛的影像視覺處理領域,Mobileye公司具有絕對的技術優勢和市場優勢,Mobileye也一次又一次地利用技術的革新推動著產業的發展。
2006年,深度學習演算法剛提出不久,Mobileye就嘗試利用深度學習演算法對車燈進行了識別,並利用車燈資訊對車輛進行識別導航。與此同時,福特提出利用人工智慧技術修復低解析度的影像,使得汽車在夜間也能獲得更加清晰的影像。早稻田大學嘗試將視覺系統和鐳射點雲相融合,並融入人工智慧技術。松下提出了專門處理環視視覺的處理器架構,其佈局可謂十分超前。因為直到不久前,Mobileye推出新的視覺輔助駕駛系統才開始採用多攝像頭的環視技術。Mobileye也在硬體系統上進行了嘗試,如對片上系統的中斷技術進行了研究。在這一階段,由於技術的不成熟,車輛控制技術所出現的關鍵技術較少。
2013年以後,人工智慧在計算機視覺方面的技術發展得越來越成熟,大量的關鍵性技術湧現出來。比如Mobileye採用了人工智慧識別演算法,識別道路輪廓。百度也利用人工智慧演算法識別車道線。這些都對車輛行駛路徑的規劃提供了技術保障。福特、蘋果等也在演算法領域進行了各種探索。
在硬體裝置領域,同樣出現了一批代表性技術。隨著感測技術和演算法的發展,智慧網聯汽車獲得的資料越來越多,而車輛的操控具備及時性,這就要求處理器能在短時間內處理大量的資料。
Mobileye在硬體系統方面做出了大量的嘗試,研發了多核多執行緒處理裝置。從產品上來看,Mobileye也一直自主設計晶片,其擁有多代EyeQ晶片,晶片和演算法的融合設計使得其計算能力得到了進一步提升。其他的創新主體,比如法雷奧、東芝也在硬體裝置的改造上進行了嘗試。
來源:國家智慧財產權局專利分析普及推廣專案人工智慧關鍵技術課題組