計算機視覺應用:深度學習的力量和侷限性

AIBigbull2050發表於2020-02-15

2020 年 1 月 20 日 15:14

從人工智慧發展的早期開始,電腦科學家就一直夢想著創造出能像我們一樣看世界和理解世界的機器,這些努力推動了計算機視覺的出現。
本文最初釋出於 TechTalks 部落格,經原作者授權由 InfoQ 中文站翻譯並分享。

計算機視覺應用:深度學習的力量和侷限性

圖片提供:Depositphotos

本文是“ 解密人工智慧 ”系列文章的一部分。該系列文章(試圖)消除有關人工智慧的術語和傳說的歧義。

從人工智慧發展的早期開始,電腦科學家就一直夢想著創造出能像我們一樣看世界和理解世界的機器。這些努力導致了 計算機視覺 的出現,這是人工智慧和處理視覺資料內容的電腦科學的一個巨大的子領域。

近年來,由於 深度學習 和人工神經網路的發展,計算機視覺實現了飛躍。深度學習是人工智慧的一個分支,尤其適合處理影像和視訊等非結構化資料。

這些進展為促進計算機視覺在現有領域的應用和將其引入新領域鋪平了道路。在許多情況下,計算機視覺演算法已經成為我們日常使用的應用程式的一個非常重要的組成部分。

關於計算機視覺現狀的一些說明

先不要對計算機視覺的進步過於興奮,讓我們瞭解下當前人工智慧技術的侷限性,這很重要。雖然有了顯著的改進,但距離有能像人類那樣理解照片和視訊的計算機視覺演算法,我們還有很長的路要走。

目前, 深度神經網路 (計算機視覺系統的核心)非常擅長畫素級模式匹配。它們在影像分類和物件定位方面特別有效。但是,當涉及到理解視覺化資料的上下文和描述不同物件之間的關係時,它們常常失效。

該領域的最新工作 顯示,計算機視覺演算法存在侷限性,而且需要新的評估方法。儘管如此,目前計算機視覺的應用表明,僅通過模式匹配就可以完成很多工作。在這篇文章中,我們將探索其中的一些應用程式,但是我們也將討論它們的侷限性。

計算機視覺的商業應用

你每天都在使用計算機視覺應用程式,只是在某些情況下可能沒有注意到。以下是計算機視覺的一些實用的流行應用,它們使生活變得有趣和方便。

影像搜尋

在影像分類和目標檢測方面,計算機視覺已經取得了很大的進展。如果標記資料足夠多,那麼訓練出的神經網路將能夠以令人印象深刻的準確性檢測和突出顯示許多各種不同的物體。

很少有公司能有谷歌那樣海量的使用者資料。該公司一直在利用其幾乎無限(且不斷增長)的使用者資料開發一些最高效的人工智慧模型。當你在谷歌照片中上傳照片時,它使用其計算機視覺演算法用關於場景、物件和人員的內容資訊來標註照片。然後,你可以根據這些資訊搜尋影像。

例如,如果搜尋“dog”,谷歌將自動返回庫中包含 dog 的所有影像。

計算機視覺應用:深度學習的力量和侷限性

谷歌使用機器學習和計算機視覺來搜尋影像的內容,即使你沒有標記它們。

然而,谷歌的影像識別並不完美。有一次,計算機視覺演算法錯誤地 將兩名深色皮膚的人的照片標記為“大猩猩” ,使公司很尷尬。

谷歌還使用計算機視覺從庫、驅動器和 Gmail 附件中的影像中提取文字。例如,當你在收件箱中搜尋某個術語時,Gmail 還會檢視影像中的文字。不久前,我在 Gmail 中搜尋我的家庭地址,我收到一封帶有圖片附件的電子郵件,其中包含一個有我地址的 Amazon 程式包。

影像編輯和增強

許多公司現在都使用 機器學習 來自動增強照片。谷歌的 Pixel 系列手機就使用裝置上的神經網路進行自動增強,如白平衡,並新增 模糊背景 等效果。

計算機視覺的發展帶來的另一個顯著的進步是智慧縮放。傳統的縮放功能通常會使影像變得模糊,因為它們通過在畫素之間插值來填充放大的區域。與放大畫素不同,基於計算機視覺的縮放側重於邊緣、模式等特徵。這種方法可以得到更清晰的影像。

許多初創公司和歷史悠久的圖形公司已經轉向使用深度學習來增強影像和視訊。Adobe 的 增強細節技術 (以 Lightroom CC 為特色)使用機器學習來建立更清晰的縮放影像。

計算機視覺應用:深度學習的力量和侷限性

Adobe 使用深度學習來增強縮放影像的細節。

影像編輯工具 Pixelmator Pro 提供了  ML 超解析度 特性,它使用卷積神經網路提供清晰的縮放和增強。

面部識別應用

直到不久前,面部識別還是一項笨拙且成本高昂的技術,僅限於警察研究實驗室。但近年來,由於計算機視覺演算法的進步,面部識別已經進入了各種計算裝置。

iPhone X 引入了 FaceID,這是一種 身份驗證系統 ,當手機看到主人的臉時,它會利用裝置上的神經網路解鎖手機。在設定過程中,FaceID 使用主人的面部影像訓練它的人工智慧模型,並且,即使照明條件、面部毛髮、髮型、帽子和眼鏡等方面存在差異,它也可以很好地工作。

在中國,許多商店現在使用面部識別技術為顧客 提供更流暢的支付體驗 (但代價是他們的隱私)。顧客無需使用信用卡或移動支付應用,只需面對裝有電腦視覺系統的攝像頭即可。

然而,儘管有這些進步,目前的面部識別並不完美。人工智慧和安全研究人員已經發現了許多導致面部識別系統出錯的方法。有這樣一個案例, 卡內基梅隆大學的研究人員 發現,他們可以通過佩戴特製的眼鏡欺騙面部識別系統,讓它們誤以為自己是名人。

計算機視覺應用:深度學習的力量和侷限性

卡內基梅隆大學的研究人員發現,通過戴上特殊的眼鏡,他們可以欺騙面部識別演算法,讓它們誤以為自己是名人(圖片來源:  ww.cs.cmu.edu ))。

資料高效的家居安全

隨著 物聯網(IoT) 的無序發展,連線到網際網路的家居安全攝像頭越來越受歡迎。你現在可以很容易地安裝安全攝像頭,並隨時線上監控你的家。

每個攝像頭都向雲傳送大量的資料。但是,安全攝像頭記錄的大部分畫面都無關痛癢,這造成了 大量的網路、儲存和電力資源的浪費 。計算機視覺演算法可以使家居安全攝像頭更有效地利用這些資源。

智慧相機一直處於閒置狀態,直到它們在即時影像中檢測到一個物體或移動,然後它們就可以開始向雲傳送資料或向相機的所有者傳送警報。然而,請注意,計算機視覺在理解上下文方面效果仍然不是很好。所以,不要指望它能區分善意的舉動(如一個球滾過房間)和需要你注意的事情(如一個小偷闖入你家)。

與真實世界互動

擴增實境 技術是一種將真實世界的視訊和影像與虛擬物體疊加在一起的技術,在過去幾年裡,它已經成為一個不斷增長的市場。擴增實境技術的發展在很大程度上歸功於計算機視覺演算法的進步。AR 應用程式使用機器學習來檢測和跟蹤目標位置和物件,並據此放置虛擬物件。你可以在很多應用中看到AR 和計算機視覺的結合,比如  Snapchat 的濾鏡 和 Warby Parker 的 Virtual Try-On。

計算機視覺還能讓你通過手機攝像頭的鏡頭從現實世界中提取資訊。一個非常顯著的例子是谷歌 Lens,它使用計算機視覺演算法來執行各種任務,比如讀取名片、檢測傢俱和衣服的風格、翻譯路牌,以及根據路由器標籤 將手機連線到 wi-fi 網路

計算機視覺的高階應用

由於深度學習的進步,計算機視覺正在解決以前計算機很難甚至不可能解決的問題。在某些情況下,經過良好訓練的計算機視覺演算法可以與擁有多年經驗及經過相應訓練的人類相媲美。

醫學影像處理

在深度學習出現之前,建立能夠處理醫學影像的計算機視覺演算法需要軟體工程師和主題專家做大量的工作。他們必須合作開發從放射影像中提取相關特徵的程式碼,然後檢查它們以進行診斷。(人工智慧研究員 Jeremy Howard 對此進行了 有趣的討論 。)

深度學習演算法提供了端到端的解決方案,使這個過程非常簡單。工程師們建立了恰當的神經網路結構,然後用 X 光片、核磁共振成像(MRI)影像或 CT 掃描影像對其進行訓練,並標註結果。然後,神經網路會找出與每個結果相關的特徵,這樣就可以診斷未來的影像,其準確性令人印象深刻。

計算機視覺已經在許多醫學領域找到了合適的應用場景,包括 癌症檢測和預測 、放射學、 糖尿病性視網膜病

一些人工智慧研究人員甚至 表示 ,深度學習將很快取代放射學家。但那些在這一領域有豐富經驗的人 並不認同 。診斷和治療疾病所要做的工作遠遠超出檢視幻燈片和影像。我們不要忘記,深度學習是從畫素中提取模式——它不能複製人類醫生的所有職責。

玩遊戲

教電腦玩遊戲 一直是人工智慧研究的一個熱點領域。大多數遊戲程式都使用 強化學習 ,這是一種人工智慧技術,通過反覆試驗來改進自己的行為。

計算機視覺演算法在幫助這些程式解析遊戲圖形內容方面起著重要的作用。然而,需要注意的一點是,在許多情況下,為了使神經網路更容易理解它們,這些圖形被“簡化”了。此外,目前的人工智慧演算法需要大量的資料來學習遊戲。例如,  OpenAI 的 Dota 遊戲 AI  使用 4.5 萬年的遊戲資料訓練才能達到冠軍級別。

無人零售商店

2016 年, 亞馬遜推出了 Go  ,你可以走進這家商店,拿起你想要的任何東西,然後離開,不會因為入店行竊而被逮捕。Go 使用了各種人工智慧系統來消除對收銀員的需求。

當顧客在店內走動時,裝有先進計算機視覺演算法的攝像頭會監控他們的行為,並跟蹤他們挑選或放回貨架的商品。當他們離開商店時,他們的購物車會自動記入他們的亞馬遜賬戶。

三年後,亞馬遜又新開了 18 家 Go 商店,而這項工作仍在進行中。但有跡象表明,計算機視覺(在其他技術的幫助下)總有一天會讓排隊結賬成為過去時。

自動駕駛汽車

無人駕駛汽車一直是人工智慧領域最長久的夢想和最大的挑戰之一。今天,我們距離能夠在各種照明和天氣條件下在任何道路上行駛的 自動駕駛汽車 還有很長的路要走。但由於深度神經網路的發展,我們已經取得了很多進展。

創造自動駕駛汽車的 最大挑戰之一 是使它們能夠理解周圍的環境。雖然不同的公司正以不同的方式解決這個問題,但有一件事是不變的,那就是計算機視覺技術。

安裝在汽車周圍的攝像頭監控著汽車的環境。深度神經網路分析視訊片段,並提取周圍物體和人的資訊。這些資訊與來自鐳射雷達等其他裝置的資料相結合,形成該地區的地圖,幫助汽車導航並避免碰撞。

令人毛骨悚然的計算機視覺應用

像所有其他技術一樣,人工智慧並非方方面面都令人愉悅。先進的計算機視覺演算法可以增強惡意應用。下面是一些引起關注的計算機視覺應用。

監控

對面部識別技術感興趣的不僅僅是手機和電腦製造商。事實上,面部識別技術的最大客戶是政府機構,他們對利用這項技術在監控錄影中自動識別罪犯有著濃厚的興趣。

但問題是,在國家安全和公民隱私之間,你在哪劃線?若前者太多而後者太少,就會導致一種監控狀態,讓政府獲得太多控制權。以面部識別技術為基礎的安全攝像頭的廣泛使用使政府能夠密切跟蹤數百萬公民的行動,無論他們是否是犯罪嫌疑人。

在美國和歐洲,情況比較複雜。在向執法部門提供面部識別技術方面,科技公司會遭到員工和數字維權人士的 抵制 。美國的一些州和城市已經 禁止面部識別技術的公共使用

自主武器

計算機視覺也能給武器裝上眼睛。軍用無人機可以使用人工智慧演算法來識別物體和挑選目標。在過去的幾年裡,軍方使用人工智慧引發了很多爭議。因為面臨著來自員工的批評,谷歌不得不 取消與國防部續簽 計算機視覺技術開發合同。

目前還沒有自主武器。大多數軍事機構在使用人工智慧和計算機視覺系統時都有人的干預。

但人們擔心,隨著計算機視覺的進步和軍事部門的進一步介入,我們遲早會擁有自主選擇目標並扣動扳機的武器,而不需要人類來做決定。

著名電腦科學家和人工智慧研究員 Stuart Russell 成立了一個組織,致力於 阻止自主武器的發展

檢視英文原文  Computer vision applications: The power and limits of deep learning




https://www.infoq.cn/article/wLSpoj2eOQF7ujcHZqzf


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2675675/,如需轉載,請註明出處,否則將追究法律責任。

相關文章