谷歌和OpenAI研發新工具,深入瞭解AI如何識別圖片

AI銳見發表於2019-03-11
谷歌和OpenAI研發新工具,深入瞭解AI如何識別圖片人工智慧的世界到底是什麼樣子的?

幾十年來,研究人員一直對此感到困惑,但近年來,這個問題變得愈加緊迫。機器視覺系統正被越來越多地應用於生活的各個領域,從醫療保健到自動駕駛

但透過機器的眼睛“看”世界,仍然是一個不小的挑戰,比如我們該怎麼理解為什麼它把有些人歸為行人,而把有些人歸為路標。如果我們無法做到這一點,就有可能會造成嚴重的,甚至是致命的後果。比如前段時間已經發生的,自動駕駛汽車撞上行人致死的事件。

雖然,神經網路在識別影像中的物體等任務上取得了巨大的成功,但它們是如何做到的在很大程度上仍是一個謎。它們的內部工作方式被遮蔽,隱藏在層層計算中,不讓人看到,使得人類很難診斷錯誤或偏差。

來自谷歌和非盈利實驗室open Ai的新研究希望透過繪製系統來了解世界的視覺資料,進一步撬開人工智慧視覺的黑匣子。

這種被稱為“啟用圖集”的方法,可以讓研究人員分析出各個演算法的工作原理,不僅能揭示它們識別的抽象形狀、顏色和模式,還揭示了它們如何結合這些元素來識別特定的物件、動物和場景。

這項工作的主要研究者,谷歌的Shan Carter說,如果以前的研究就像在演算法的視覺字母表中顯示單個字母,那麼啟用圖集提供了一個更接近整個詞典的東西,它顯示出字母是如何組合成實際單詞的。卡特說:“例如,在像‘鯊魚’這樣的影像中,會由很多啟用碼構成,比如‘牙齒’和‘水’。”

雖然這不一定是一個巨大的突破,但它是在被稱為“功能視覺化”的更廣泛的研究領域向前邁出的一步。佐治亞理工大學的博士生Ramprasaath Selvaraju表示,這項研究“非常吸引人”,並結合了許多現有的想法,創造了一個新的極其有用的工具。

Selvaraju說,這樣的工作將有很多用途,幫助我們建立更高效和先進的演算法,並透過讓研究人員深入研究來提高安全性和消除偏差。“由於神經網路固有的複雜性,它們有時缺乏可解釋性,”但他說,在未來,當網路被廣泛用於自動駕駛汽車和引導機器人時,這將是必不可少的一步。Open Ai的Chris Olah也參與了這個專案,他說:“這有點像製作顯微鏡。至少,這是我們所設想的。”

要了解啟用圖集和其他功能視覺化工具的工作原理,首先需要了解一點人工智慧系統如何識別物件。實現這一點的基本方法是使用神經網路:一種與人腦大致相似的計算結構(儘管它在複雜程度上落後了一個光年)。

每一個神經網路內部都是人工神經元,它們像網一樣連線在一起。就像你大腦中的細胞一樣,這些細胞會響應刺激,這一過程稱成為啟用。重要的是,它們不僅可以啟動或關閉,它們可以在一個頻譜上註冊,給每個啟用一個特定的值或“權重”。

谷歌和OpenAI研發新工具,深入瞭解AI如何識別圖片

要把神經網路變成有用的東西,你必須給它大量的訓練資料。這意味著數十萬甚至數百萬張影像,每一張都標有特定的類別。在谷歌和Openai的研究人員為這項工作測試的過程中,這些影像涉及面廣泛:從羊毛到溫莎領帶,從安全帶到空間加熱器。

當它輸入這些資料時,神經網路中的不同神經元會響應每個影像而亮起。此模式連線到影像的標籤。一旦經過訓練後,您就可以向網路展示一張以前它從未見過的圖片,並且神經元將啟用,將輸入內容與特定類別相匹配。恭喜你!剛剛成功訓練了機器學習視覺演算法。

這讓研究人員可以觀察到網路的一些情況,透過在不同資訊層之間切換,他們可以看到網路是如何從構建到最終決策的,從形狀和紋理等基本視覺概念開始到具體的物件。

例如,Olah注意到,狗的品種在很大程度上是以耳朵的下垂程度來區分的。圖集還展示了網路是如何聯絡不同的物體和想法的,比如說,把狗耳朵放在離貓耳朵不太遠的地方,看隨著層級的發展,這些區別是如何變得清晰的。

該研究還發現了一些驚喜,例如,Olah拍攝了一張魚鰭的照片,一條魚鰭劃過了洶湧的海水,那麼它到底是屬於灰鯨還是大白鯊?作為一個沒有釣魚經驗的人,我不會冒險猜測,但是作為曾經看到過大量鯊魚和鯨魚鰭的神經網路不應該有問題。

谷歌和OpenAI研發新工具,深入瞭解AI如何識別圖片

然後Olah展示了在神經網路的特定層面上與兩隻動物相關的圖集影像,但其中一個鯊魚影像特別奇怪。如果你仔細一看,你可能會看到一排排潔白的牙齒和牙齦,樣子卻同棒球的接縫十分相似。

事實證明,他們研究的神經網路也有這樣的視覺隱喻的天賦,這可以作為愚弄系統的廉價技巧。透過改變魚鰭照片,比如說,在一個角落放置一個棒球郵票影像,Carter和Olah發現可以很容易地說服神經網路鯨魚實際上是一條鯊魚。

谷歌和OpenAI研發新工具,深入瞭解AI如何識別圖片

Olah說,這種方法不太可能被網路破壞者所使用,因為其實有更簡單更微妙的方式來製造混亂。比如他們可以自動生成所謂的對抗性補丁,使網路混淆,把貓當作是一碗鱷梨醬,甚至導致自動駕駛汽車誤讀停止標誌。

但令人興奮的是,有了這個工具,人類可以充分了解網路的內部深度,使得它最終幫助我們識別混淆或偏差,並及時糾正。

但是錯誤也是時有發生的,比如說,把不同種族的人類識別成大猩猩而非人。有了這樣的視覺化工具,研究人員可以檢視是什麼外來資訊或視覺相似性導致了錯誤的發生。

也就是說,試圖預測神經網路的核心是存在風險的。“人們常常擔心你可能在欺騙你自己,”奧拉說,風險在於我們可能試圖強加我們熟悉的視覺概念或尋找有意義的簡單解釋。

這就是包括人工智慧先驅Hinton在內的一些人物一直反對人類解釋AI運作規律的原因之一,正如人類無法解釋他們的大腦如何做出決定一樣,計算機也是同樣。他最近在接受WIRED採訪時說道:“如果你非要要求他們解釋所做的決定,你就會強迫他們編造一個故事。”

雖然爭議不斷,但“啟用圖集”的研究者們始終認為:每一代新工具的研發都在讓我們更接近這些在網路中發生事情的真相。

相關文章