把大象當襪子,把北極熊當開瓶器:可以,這很AI

藥明康德AI發表於2019-01-15

影像辨識是人工智慧最為廣泛的應用之一,深度學習通過演算法和訓練,就能辨識出影像中的物體。這個功能又被稱為“機器視覺”(machine vision),但是我們暫時還無法完全理解機器視覺作用的機制

為了研究AI機器視覺的機制是否和人類視覺相似,來自加州大學洛杉磯分校認知心理學的研究團隊設計了五個有趣的實驗,結果也出人意料:AI竟能把大象誤認為襪子

研究團隊在實驗中使用了一個名為VGG-19的深度卷積神經網路這是目前現有識圖能力較好的AI之一VGG-19面對的挑戰是,辨識一些被調整過的圖片。研究者把圖片中茶壺的圖案替換成高爾夫球的紋路,把斑馬的條紋貼在了駱駝的身上,還把襪子的紅藍菱形圖案貼在了大象的身上。VGG-19需要在這些眼花繚亂的圖片中,辨認出這些物體。

實驗的結果有點搞笑,AI完全沒有認出圖案中的大象,AI對辨識茶壺的信心也只有41%(AI識圖時會做出多個判斷,並給出各個判斷結果為正確的可能性,本文中用信心來描述這個指標)。和以往高準確率的影像識別率相比,實在是低的可憐。研究的第一作者Nicholas Baker先生認為,這是因為AI過度關注圖面中的紋理,忽視了物體整體形狀

把大象當襪子,把北極熊當開瓶器:可以,這很AI

▲有高爾夫圖案的茶壺(圖片來源:Nicholas Baker/PLOS Computational Biology)

為了進一步驗證這個想法,研究人員進行了第二個實驗,並且還引入了另一個深度卷積神經網路AlexNet。AlexNet和VGG-19都採用了ImageNet圖片資料庫來進行深度學習訓練。

第二個實驗中,研究人員的測試道具是帶有動物圖案的玻璃製品。然而,這兩個AI的成績依然糟糕。它們完全無法辨認出大象造型的玻璃製品,VGG-19還做出很多令人啼笑皆非的判斷。它把北極熊造型的玻璃製品當作“開瓶器”,把天鵝造型的製品當作“網頁”。在1000次測試中,AlexNet的準確辨識率僅有328次

把大象當襪子,把北極熊當開瓶器:可以,這很AI

▲北極熊造型的玻璃製品(圖片來源:PLOS Computational Biology/Rubylane.com

為了繼續測試AI是否可以像人一樣感知物體的形狀,第三個實驗檢驗了AI辨別黑白簡筆畫的能力。研究人員提供了40幅用黑色線條勾勒的繪畫,沒有上色,供兩個AI辨識。可惜,AI連蝴蝶、飛機、香蕉這樣的圖案都辨別不出

把簡筆畫圖上色會怎麼樣呢?研究人員又用了40幅圖片,不過這次他們給圖片塗上了黑色。這次AI終於回過神來了。VGG-19對黑色算盤辨識的信心達到了99.99%,對加農炮辨識的信心也達到了61%。對比上一個實驗,AI對僅有線條勾勒的錘子圖案的辨識信心不足1%。

把大象當襪子,把北極熊當開瓶器:可以,這很AI

把大象當襪子,把北極熊當開瓶器:可以,這很AI

▲上:錘子簡筆畫(圖片來源:PLOS Computational Biology/www.clker.com)

下:塗色後的算盤(圖片來源:PLOS Computational Biology/Sweet Clip Art.com)

最後,研究人員在真人身上進行了一個類似的測試。他們選取了6張AI已經判定正確的圖片,並把這些圖片剪碎。參與者只能看到這些剪碎或未剪碎圖片的剪影。結果,參與者對剪碎圖片的剪影辨識度僅為20%-30%,對完整圖片剪影的辨識度則超過90%。

最後這項測試再次證明,人辨識物體更依賴於物體整體的形狀。而前幾個實驗表明,AI無法僅依靠整體形狀準確地辨識物體,而更需要利用區域性的細節(如顏色、紋路等)來進行辨識

加州大學洛杉磯分校心理學系傑出教授Philip Kellman認為這項研究證明了:“AI識別影像的訓練並沒有太多地考慮到物體本身的形狀。而對於人,物體本身形狀是辨識物體最主要的因素。”

看來AI識圖還是有很長的路要走呀。

參考資料:

[1] Baker, et al., Deep convolutional networks do not classify based on global object shape. PLOS Computational Biology, https://doi.org/10.1371/journal.pcbi.1006613

[2] Can artificial intelligence tell a polar bear from a can opener? Retrieved Jan 10, 2019 from https://www.eurekalert.org/pub_releases/2019-01/uoc--cai010719.php

相關文章