計算機視覺邁進新徵程“玩家”找出哪些新玩法?

dicksonjyl560101發表於2019-08-06

當前,計算機視覺的已經成為了一個跨學科的領域,計算機視覺源於1980年左右的神經網路技術,但是直到近幾年才真正實現了大規模商業化落地。大規模的資金進入,促使更多專注於計算機視覺的企業不斷出現,這些企業在不同的領域透過計算機視覺技術不斷的改造升級著原有的商業模式。作為一個靈感來自人類視覺大腦皮層的技術,我們現在是否已經處在機器物體探測或分類能力與人類視覺相當,甚至更強的階段了呢?

曠視科技:AI鼻紋識別


計算機視覺邁進新徵程“玩家”找出哪些新玩法?


近期,曠視科技推出AI鼻紋識別解決方案,這項解決方案最先應用於犬隻身份認證。專用於寵物識別。有別於瞳孔、臉型等其他犬隻認證方式,曠視選擇鼻紋作為識別的關鍵特徵。與人類指紋類似,犬類鼻紋具有唯一性與穩定不變性,即不存在鼻紋完全相同的兩隻犬、同一只犬的鼻紋亦不會隨著成長而改變。主人只需對準犬鼻進行簡單的抓拍或者影片錄影,系統透過犬鼻檢測,定位出鼻紋關鍵點,將提取到的鼻紋深度圖資訊匯入後臺資料庫,更可為犬隻生成一張專屬的身份證。目前,曠視鼻紋識別技術能達到犬隻的1:1比對,在誤識率為萬分之一的情況下,試點場景中準確率95%;

極鏈科技:影片識別


計算機視覺邁進新徵程“玩家”找出哪些新玩法?


目前影片人臉識別還有很多的困難與挑戰,如影片影像質量差、人臉影像小燈問題,極鏈科技提出了以四模組對場景中的人臉進行識別。

1.影片結構化,將影片用鏡頭分割。通常採用全域性特徵和區域性特徵相結合的方法。全域性特徵檢測全域性顏色的分佈突變,然後借用區域性特徵獲得的人臉識別的跟蹤結果、跟蹤軌跡的斷續來判斷影片是否具有鏡頭切換。跟蹤來判斷鏡頭切換有一個很大的優點,因為後續的步驟也會採用相似的演算法,所以這一步驟所需的演算法是可以重複使用的。

2.人臉軌跡提取。完成了鏡頭分割以後,就可以分割好的單一鏡頭裡進行人臉軌跡提取。在軌跡提取的演算法上,同樣要考慮準確率和速度的指標。要實現速度和準確率的平衡,可以有以下兩種途徑:一是間隔取樣or逐幀處理,二是檢測&跟蹤的配合。

3.人臉識別。有了人臉軌跡之後,就可以開始進行人臉的識別了。但是在將人臉資料輸入深度網路之前,還需要對其進行必要的變換和處理。其中一部分變換在針對人臉這一部分非常重要,尤其是在消費級影片裡,那就是人臉的對齊。人臉對齊是利用人臉的特徵點檢測定位,將各種姿勢的人臉影像還原矯正為正臉的過程。在演算法框架中,需要加入人臉質量評估的演算法,以過濾低質量的人臉圖片,保證人臉資料的準確率。在樣本足夠的前提下,可以利用訓練得到的模型對人臉樣本進行特徵提取。測試的時候,在影片中檢測得的人臉後,將其輸入到生成的特徵向量裡,與人臉互動的特徵向量進行匹配,從而找到在特徵空間中最接近的一個樣本。

4.識別結果融合。以上提到的人臉識別都是針對單幀識別的圖片而言的,之前說到的系統識別結果都是針對整個人臉軌跡而言。因此,最後需要將人臉識別的結果與整條人臉軌跡融合起來,得到整個軌跡的識別結果。

商湯科技:面部圖片處理


計算機視覺邁進新徵程“玩家”找出哪些新玩法?


近日,來自商湯科技,香港中文大學以及香港大學的研究團隊提出了一種稱為MaskGAN的新型框架,可實現多樣化和互動式的面部操作。其主要觀點是語義掩模作為靈活的面部操作的適當中間表示,使其具有保真度。MaskGAN有兩個主要組成部分:

1.密集對映

2.編輯行為模擬訓練

具體而言,密集對映網路學習自由形式的使用者修改掩碼和目標影像之間的樣式對映,從而實現不同的生成結果。

以色列魏茨曼科學研究院:影像分離

本月,以色列魏茨曼科學研究所的研究人員開發出了一項名為Double-DIP的新技術,該技術能讓系統在沒有大量訓練資料的情況下,透過深度學習來對影像進行編輯,分離人們在圖片中想要的和不想要的部分。該研究基於一項名為DIP(Deep Image Prior)的混合影像恢復技術,因此研究人員將他們開發的新分離影像方法稱為Double-DIP。DIP技術的研究成果已於美國時間2018年7月18日提交在arxiv上,名為《影像恢復的混合稀疏先驗學習:深度學習與稀疏編碼的結合(Learning Hybrid Sparsity Prior for Image Restoration: Where Deep Learning Meets Sparse Coding)》。

呂貝克大學:醫學影像生成新方法

當前,GAN應用於醫學研究還面臨一項重大挑戰。深度學習演算法需要對高解析度影像進行訓練,才能產生最佳預測,然而合成這樣的高解析度影像,尤其是3D影像,需要大量的計算能力。來自呂貝克大學醫學資訊學研究所的研究人員提出了一種新方法,可以大大降低硬體的配置要求。研究人員把影像生成的過程分解為幾個階段:首先利用GAN生成低解析度影像,然後在正確的解析度下每次生成一小部分的細節影像。透過實驗,研究人員發現這種方法不僅生成了逼真的高解析度2D和3D影像,而且無論影像大小,支出費用都保持不變。

小結:

在深度學習技術出現之前,很多應用都遇到了瓶頸,進步很慢,每年只有大概的精確性提升。但隨著深度學習的進步,計算機視覺的發展經歷了一個巨大的飛躍,技術的不斷升級也催生出了一系列跨行業的應用。隨著主流的科技巨頭入場,計算機視覺領域已經熱鬧非凡,但如果想要開創出一些新的應用獲獎應用能力再進行提升,恐怕還有不短的路需要走。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2652773/,如需轉載,請註明出處,否則將追究法律責任。

相關文章