影像識別技術的背景
移動網際網路、智慧手機以及社交網路的發展帶來了海量圖片資訊,根據BI五月份的文章,Instagram每天圖片上傳量約為6000萬張;今年2月份WhatsApp每天的圖片傳送量為5億張;國內的微信朋友圈也是以圖片分享為驅動。不受地域和語言限制的圖片逐漸取代了繁瑣而微妙的文字,成為了傳詞達意的主要媒介。圖片成為網際網路資訊交流主要媒介的原因主要在於兩點:
第一,從使用者讀取資訊的習慣來看,相比於文字,圖片能夠為使用者提供更加生動、容易理解、有趣及更具藝術感的資訊;
第二,從圖片來源來看,智慧手機為我們帶來方便的拍攝和截圖手段,幫助我們更快的用圖片來採集和記錄資訊。
但伴隨著圖片成為網際網路中的主要資訊載體,難題隨之出現。當資訊由文字記載時,我們可以通過關鍵詞搜尋輕易找到所需內容並進行任意編輯,而當資訊是由圖片記載時,我們卻無法對圖片中的內容進行檢索,從而影響了我們從圖片中找到關鍵內容的效率。圖片給我們帶來了快捷的資訊記錄和分享方式,卻降低了我們的資訊檢索效率。在這個環境下,計算機的影像識別技術就顯得尤為重要。
影像識別是計算機對影像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。識別過程包括影像預處理、影像分割、特徵提取和判斷匹配。簡單來說,影像識別就是計算機如何像人一樣讀懂圖片的內容。藉助影像識別技術,我們不僅可以通過圖片搜尋更快的獲取資訊,還可以產生一種新的與外部世界互動的方式,甚至會讓外部世界更加智慧的執行。百度李彥宏在2011年提到“全新的讀圖時代已經來臨”,現在隨著圖形識別技術的不斷進步,越來越多的科技公司開始涉及圖形識別領域,這標誌著讀圖時代正式到來,並且將引領我們進入更加智慧的未來。
影像識別的初級階段——娛樂化、工具化
在這個階段,使用者主要是藉助影像識別技術來滿足某些娛樂化需求。例如,百度魔圖的“大咖配”功能可以幫助使用者找到與其長相最匹配的明星,百度的圖片搜尋可以找到相似的圖片;Facebook研發了根據相片進行人臉匹配的DeepFace;雅虎收購的影像識別公司IQ Engine開發的Glow可以通過影像識別自動生成照片的標籤以幫助使用者管理手機上的照片;國內專注於影像識別的創業公司曠視科技成立了VisionHacker遊戲工作室,藉助圖形識別技術研發移動端的體感遊戲。
這個階段還有一個非常重要的細分領域——OCR(Optical Character Recognition,光學字元識別),是指光學裝置檢查紙上列印的字元,通過檢測暗、亮的模式確定其形狀,然後用字元識別方法將形狀翻譯成計算機文字的過程,就是計算機對文字的閱讀。語言和文字是我們獲取資訊最基本、最重要的途徑。在位元世界,我們可以藉助網際網路和計算機輕鬆的獲取和處理文字。但一旦文字以圖片的形式表現出來,就對我們獲取和處理文字平添了很多麻煩。這一方面表現為數字世界中由於特定原因被儲存稱圖片格式的文字;另一方面是我們在現實生活中看到的所有物理形態的文字。所以我們需要藉助OCR技術將這些文字和資訊提取出來。在這方面,國內產品包括百度的塗書筆記和百度翻譯等;而谷歌藉助經過DistBelief 訓練的大型分散式神經網路,對於Google 街景相簿的上千萬門牌號的識別率超過90%,每天可識別百萬門牌號。
在這個階段,影像識別技術僅作為我們的輔助工具存在,為我們自身的人類視覺提供了強有力的輔助和增強,帶給了我們一種全新的與外部世界進行互動的方式。我們可以通過搜尋找到圖片中的關鍵資訊;可以隨手拍下一件陌生物體而迅速找到與之相關的各類資訊;可以將潛在搭訕物件拍下提前去她的社交網路瞭解一番;也可以將人臉識別作為主要的身份認證方式……這些應用雖然看起來很普通,但當影像識別技術滲透到我們行為習慣的方方面面時,我們就相當於把一部分視力外包給了機器,就像我們已經把部分記憶外包給了搜尋引擎一樣。
這將極大改善我們與外部世界的互動方式,此前我們利用科技工具探尋外部世界的流程是這樣:人眼捕捉目標資訊、大腦將資訊進行分析、轉化成機器可以理解的關鍵詞、與機器互動獲得結果。而當影像識別技術賦予了機器“眼睛”之後,這個過程就可以簡化為:人眼藉助機器捕捉目標資訊、機器和網際網路直接對資訊進行分析並返回結果。影像識別使攝像頭成為解密資訊的鑰匙,我們僅需把攝像頭對準某一未知事物,就能得到預想的答案。就像百度科學家餘凱所說,攝像頭成為連線人和世界資訊的重要入口之一。
影像識別的高階階段——擁有視覺的機器
上文提到,目前的影像識別技術是作為一個工具來幫助我們與外部世界進行互動,只為我們自身的視覺提供了一個輔助作用,所有的行動還需我們自己完成。而當機器真正具有了視覺之後,它們完全有可能代替我們去完成這些行動。目前的影像識別應用就像是盲人的導盲犬,在盲人行動時為其指引方向;而未來的影像識別技術將會同其他人工智慧技術融合在一起成為盲人的全職管家,不需要盲人進行任何行動,而是由這個管家幫助其完成所有事情。舉個例子,如果影像識別是一個工具,就如同我們在駕駛汽車時佩戴谷歌眼鏡,它將外部資訊進行分析後傳遞給我們,我們再依據這些資訊做出行駛決策;而如果將影像識別利用在機器視覺和人工智慧上,這就如同谷歌的無人駕駛汽車,機器不僅可以對外部資訊進行獲取和分析,還全權負責所有的行駛活動,讓我們得到完全解放。
《人工智慧:一種現代方法》中提到,在人工智慧中,感知是通過解釋感測器的響應而為機器提供它們所處的世界的資訊,其中它們與人類共有的感知形態包括視覺、聽覺和觸覺,而視覺最為重要,因為視覺是一切行動的基礎。在一次論壇上百度IDL的餘凱院長問大家,你覺得哪種感覺最重要?沒有人能很快作答,後來餘凱院長換了個提問方式,如果要放棄一種感覺,你最不願意放棄的是那一種?這時大家都回答是視覺。Chris Frith在《心智的構建》中提到,我們對世界的感知不是直接的,而是依賴於“無意識推理”,也就是說在我們能感知物體之前,大腦必須依據到達感官的資訊來推斷這個物體可能是什麼,這構成了人類最重要的預判和處理突發時間的能力。而視覺是這個過程中最及時和準確的資訊獲取渠道,人類感覺資訊中的80%都是視覺資訊。機器視覺之於人工智慧的意義就是視覺之於人類的意義,而決定著機器視覺的就是影像識別技術。
更重要的是,在某些應用場景,機器視覺比人類的生理視覺更具優勢,它更加準確、客觀和穩定。人類視覺有著天然的侷限,我們看起來能立刻且毫無費力的感知世界,而且似乎也能詳細生動的感知整個視覺場景,但這只是一個錯覺,只有投射到眼球中心的視覺場景的中間部分,我們才能詳細而色彩鮮明的看清楚。偏離中間大約10度的位置,神經細胞更加分散並且智慧探知光和陰影。也就是說,在我們視覺世界的邊緣是無色、模糊的。因此,我們才會存在“變化盲視”,才會在經歷著多樣事物發生時,僅僅關注其中一樣,而忽視了其他樣事物的發生,而且不知道它們的發生。而機器在這方面就有著更多的優勢,它們能夠發現和記錄視力所及範圍內發生的所有事情。拿應用最廣的視訊監控來說,傳統監控需要有人在電視牆前時刻保持高度警惕,然後再通過自己對視訊的判斷來得出結論,但這往往會因為人的疲勞、視覺侷限和注意力分散等原因影響監控效果。但有了成熟的影像識別技術之後,再加以人工智慧的支援,計算機就可以自行對視訊進行分析和判斷,發現異常情況直接報警,帶來了更高的效率和準確度;在反恐領域,藉助機器的人臉識別技術也要遠遠優於人的主觀判斷。
許多科技巨頭也開始了在影像識別和人工智慧領域的佈局,Facebook簽下的人工智慧專家Yann LeCun最重大的成就就是在影像識別領域,其提出的LeNet為代表的卷積神經網路,在應用到各種不同的影像識別任務時都取得了不錯效果,被認為是通用影像識別系統的代表之一;Google 藉助模擬神經網路“DistBelief”通過對數百萬份YouTube 視訊的學習自行掌握了貓的關鍵特徵,這是機器在沒有人幫助的情況下自己讀懂了貓的概念。值得一提的是,負責這個專案的Andrew NG已經轉投百度領導百度研究院,其一個重要的研究方向就是人工智慧和影像識別。這也能看出國內科技公司對影像識別技術以及人工智慧技術的重視程度。
影像識別技術,連線著機器和這個一無所知的世界,幫助它越發瞭解這個世界,並最終代替我們完成更多的任務。
摘自: huxiu