當前人工智慧的興起主要基於深度學習的發展,但是這種方法並不能讓計算機像人類一樣通過學習少量樣本就能將知識泛化到很多種問題中去,這也意味著系統應用範圍受限。最近,知名人工智慧創業公司 Vicarious 在 Science 上發表的研究提出了一種全新概率生成模型。新的模型具有識別、分割和推理能力,在場景文字識別等任務上超過了深度神經網路。研究人員稱,這種方法或許會將我們帶向通用人工智慧。
論文:A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs
論文連結:http://science.sciencemag.org/content/early/2017/10/25/science.aag2612
摘要:從少數樣本學習並泛化至截然不同的情況是人類視覺智慧所擁有的能力,這種能力尚未被先進的機器學習模型所學習到。通過系統神經科學的啟示,我們引入了視覺的概率生成模型,其中基於訊息傳送(message-passing)的推斷以統一的方式處理識別、分割和推理(Reasoning)。該模型表現出優秀的泛化和遮擋推理(occlusion-reasoning)能力,並在困難的場景文字識別基準任務上優於深度神經網路,且更具有 300 倍的資料效率(data efficient)優勢。此外,該模型基本上打破了現代基於文字的驗證碼生成方案,即在沒有具體驗證碼的啟發式方法下分割目標。我們的模型在通向通用人工智慧的路上可能是非常重要的,因為它強調了資料效率和語意合成性等特性。
圖 1:人類在字母形式感知上的靈活性。(A)人類擅長解析不熟悉的驗證碼。(B)相同的字母可以有非常多的表現形式,上圖都是「A」。(C)對形狀的感知可以有助於將其解析為相近的目標。
圖 2:RCN(Recursive Cortical Network)的結構。
上圖(A)層級結構生成物件的輪廓,條件隨機場(CRF)生成表面外觀。(B)輪廓層級相同的兩個子網路通過複製特定父結點的子結點特徵並連線它們到該父結點的旁邊分支(laterals)而保持獨立的分支連線。圖中綠色矩形的結點是特徵「e」的複製。(C)表徵正方形輪廓的三級 RCN,第二級特徵表徵著四個角,而每個角都使用四個線段的連線表示。(D)表徵字母「A」的四級網路。
圖 4:傳播與特徵學習的過程。
上圖(A)中的 i 為前向傳播(包括了側面傳播),生成多個字母的假設展示在輸入影象中。PreProc 是一組類 Gabor 的濾波器,可以將畫素轉化為邊緣似然度。ii 為後向傳播和側面傳播(lateral propagation)建立的分割掩碼,它可用來挑選前向傳播的假設,上圖掩碼為「A」。iii 是錯誤的假設「V」正好擬合「A」和「K」的交叉點,錯誤的假設需要通過解析來解決。(iv)可以啟用多個假設以產生聯合解釋來避免字母遮擋情況。(B)第二級特徵上學習各種特徵。彩色的圓圈表示特徵啟用,虛線圓圈表示提出的特徵。(C)從輪廓領域學習邊緣(laterals)。
圖 5:用 RCN 解析驗證碼。
上圖(A)為代表性的 ReCAPTCHA 解析方法所給出的前兩個預測結果,它們的分割與標註由兩個不同的標註者完成。(B)在受限的 CAPTCHA 資料集上 RCN 和 CNN 的詞準率。在修改字元間距後,CNN 相比於 RCN 沒有那麼多的魯棒性。(C)為不同 CAPTCHA 風格的準確率。(D)為代表性 BotDetect 解析和分割結果(使用不同顏色表示)。
圖 6:使用少量樣本進行訓練的 MNIST 分類結果。
上圖(A)為 RCN、CNN 和 CPM 的 MNIST 分類準確度。(B)為有損 MNIST 測試集上的分類準確度,圖例展示了訓練樣本的總數。(C)為不同 RCN 配置的的 MNIST 分類準確度。
圖 7:通過 RCN 生成、遮擋推理和場景文字解析。