模擬人腦算什麼,AI“扮”狗腦瞭解一下?

AI科技大本營發表於2018-04-18

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1



譯者 | 林椿眄

編輯 | Just


【導讀】通常,我們的人工智慧系統都是以人的視角去構造的,這些系統已經用於自動駕駛、人臉識別、操作重型機器,甚至檢測疾病。那麼,我們可以從動物的角度構建一個智慧系統嗎?比如讓 AI 去模擬狗的行為。


華盛頓大學與 Allen 人工智慧研究所的研究人員最新的論文公開了他們開發的一種深度學習系統,該系統可以訓練並模擬狗的行為特徵。研究人員表示訓練智慧機器的目標是使其能夠充當一個智慧視覺體的角色。不過,讓智慧機器充當狗的角色這個想法是非常具有挑戰性的任務。


簡介


我們研究瞭如何直接構建一個視覺智慧體(visually intelligent agent)。通常,計算機視覺技術專注於解決與視覺智慧相關的各種子任務。但我們的研究不同於這種標準的計算機視覺方法。相反,我們嘗試直接構建一個視覺智慧體,我們的模型將視覺資訊作為輸入,並直接預測智慧體在未來的行為。


此外,我們引入了 DECADE 資料集,這是一個以狗的視角所蒐集的狗的行為資料集。利用這些資料,我們可以模擬狗的行為和動作規劃方式。在多種度量方法下,對於給定的視覺輸入,我們成功地構建了一個視覺智慧體,它能夠準確預測並模擬狗的行為。不僅如此,與影像分類任務學到的特徵表徵相比,我們的智慧體學習到的特徵能夠編碼不同的資訊,也可以推廣到其他領域。尤其需要指出的是,通過將這種狗的建模任務作為表示學習,我們在可行走區域預測和場景分類任務中取得非常卓越的結果。

方法與模型


為了訓練,研究人員使用了一個叫做 Kelp 的阿拉斯加雪橇犬,並在其腿部配備了 GoPro 相機,尾部和後備箱上配備六個慣性測量感測器,一個麥克風以及一個把這些資料綁在一起的 Arduino 開發板。研究人員在超過 50 個不同的地點,在長達數小時的時間內,記錄了 Kelp 的活動資料,如步行、追蹤、抓取,與其他狗互動以及跟蹤物體等。利用英偉達提供的 GeForce GTX 1080 GPU,TITAN X GPU 以及 cuDNN 加速的深度學習框架,研究人員用所獲得的視覺和感官資訊來訓練神經網路。



640?wx_fmt=png



在這裡,研究人員解決了三個問題:


  1. 像狗一樣行動:根據一系列先前看到的影像,神經網路的目標是預測狗未來的運動軌跡;

  2. 像狗一樣規劃:目標是找到一系列動作,讓狗在給定的一對影像的位置之間移動。

  3. 從狗身上學習:我們將學習的表現用於第三項任務(如可行走的表面評估(Walkable surface estimation),預測狗的可行走區域)。


這些任務需要一些相當複雜的資料:例如,就像真的狗一樣,我們的 AI 系統必須知道,當它需要從一個地點移動到另一地點的時候,可行走區域的位置有哪些。它不能在樹上或汽車上行走,也不能在沙發上行走(這也取決於房子)。因此,我們的模型也要學會這一點,它可以作為一個獨立的計算機視覺模型,在一張給定影像中找出一個寵物(或一個有足機器人)所能夠到達的位置。下面我們將逐一介紹這三個任務所用到的模型結構。



640?wx_fmt=png



這是用於模擬狗的行為的模型結構。這個模型是一個編碼-解碼器結構的神經網路,編碼器接收成對的圖片流作為輸入,而解碼器輸出每個節點未來的行動決策。在編碼器和解碼器之間有一個全連線層(FC),它能夠更好地捕捉區域內的行為變化。在解碼器中,每個時步輸出的行動概率將被用於下一個時步(timestep)。我們在兩個 ResNet 中共享模型的權重引數。

640?wx_fmt=png



這是用於規劃狗的行為的模型結構。這個模型是卷積神經網路 CNN 和長短期記憶模型 LSTM 的結合體。模型的輸入是兩張圖片 I1 和 IN,這是在視訊系列的第 N-1 時間步擷取來的資料。長短期記憶模型 LSTM 接收 CNN 的特徵作為輸入,並輸出狗從 I1 移動到 IN 過程的行動序列。

640?wx_fmt=png



這是用於可行走區域預測的模型結構。我們用 ResNet 模型的後四層,對其進行卷積、反摺積來推斷可行走區域。


評估指標


在實驗評估階段,我們使用多種不同的評價指標來綜合地評判我們的方法,包括分類精度、混淆度(perplexity)等。



640?wx_fmt=png



定量分析結果:我們展示了模型識別視訊中 5 幀資料的結果,視訊中一個男人開始向一隻狗投擲一個球。在視訊中,當球飛向那隻狗時,狗會向右方移動以躲避球飛過來的方向。僅僅使用這 5 幀資料,模型就能夠在球飛來時準確地預測出狗的移動方向。

實驗結果



640?wx_fmt=png


“像狗一樣行動”的結果: 我們觀察了 5 幀的視訊序列並預測了接下來的 5 個動作。



640?wx_fmt=png



“像狗一樣規劃”的結果:在開始和結束幀之間進行規劃, 我們考慮了相隔 5 步的起始影像。

640?wx_fmt=png


持續評估和全節點評估。在第一欄中數值越低越好,在第二欄中數值越高越好。

640?wx_fmt=png


“步行式表面評估”結果。我們將在 ImageNet 上訓練的網路結果與為我們做任務訓練的網路進行了比較。 評估指標是 IOU。



實驗結果表明,我們的模型能夠在不同的情況下學習並模擬狗的行為,並像狗一樣的規劃並採取行動。


在研究報告中,研究人員指出,“狗的行動空間比人類要簡單得多,這使得我們的任務更加易於處理。然而,它們能夠清楚地表現出智慧視覺的能力,如識別食物、障礙物、其他人類和動物,並對這些輸入做出相應地反應,但我們對於這些行為的目標和動機常常知之甚少。”


未來展望


研究人員提到,他們的評估實驗顯示出有趣而富有希望的結果。他們的模型可以在各種情況下預測狗的行為,並能像狗一樣採取行動,還能像狗一樣計劃如何從一種狀態轉移到另一種狀態。


在未來的應用中,研究團隊表示這只是一個初步的實驗。他們打算從多隻狗身上收集更多資料(建立多樣的資料庫),並考慮引入更多的感官資訊,如找到一些捕捉聲音、觸覺和嗅覺的方法。他們希望這項工作能夠為人類更好理解視覺智慧和生物智慧奠定基礎。


論文連結:https://arxiv.org/pdf/1803.10827.pdf


原文連結:

https://news.developer.nvidia.com/researchers-train-ai-to-think-like-a-dog/


招聘

AI科技大本營現招聘AI記者和資深編譯,有意者請將簡歷投至:gulei@csdn.net,期待你的加入


AI科技大本營讀者群(計算機視覺、機器學習、深度學習、NLP、Python、AI硬體、AI+金融、AI+PM方向)正在招募中,和你志同道合的小夥伴也在這裡!關注AI科技大本營微信公眾號,後臺回覆:讀者群,新增營長請務必備註姓名,研究方向。

640?wx_fmt=gif
640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

AI科技大本營公眾號ID:rgznai100640?wx_fmt=jpeg


☟☟☟點選 | 閱讀原文 | 檢視更多精彩內容

相關文章