本文介紹了三篇AAAI 2019 論文,前兩篇分別研究了機器人如何學習環境中的物品擁有權以及對物品的操作能力,後一篇研究了是否能用當今的深度學習方法來模擬簡單的人類認知活動。
分析師簡介:Joni 目前是日本國立產業綜合研究所的研究員。在中國大陸本科本行是自動化,後來對機器人研究有興趣,在香港就讀了電機工程的 Mphil 學位。博士時開始著迷生物學和腦科學的機器人研究,因此在德國漢堡大學參與了認知機器人的歐盟專案。此後一直歐洲,英國,日本和中國研究和討論神經科學,生物學和機器人之間共通之處。
機器之心主頁: https://www.jiqizhixin.com/users/24e7c39e-98c4-4dd9-8d36-26d6207e1b67
That's Mine! Learning Ownership Relations and Norms for Robots
Zhi-Xuan Tan, Jake Brawer, Brian Scassellati
Link: https://arxiv.org/abs/1812.02576
「That's mine! Learning ownership relations and norms for robots」這篇文章出自耶魯大學的 Scassellati 教授和他的合作者。Scassellati 教授是 social robotics 的其中一位重要的研究者。這篇文章主要解決了一個問題:機器人怎樣通過人機互動中,學習環境中的物品擁有權問題。這種物品擁有權問題,可以進一步擴充套件為機器人學習社會和人類的規範的問題。
文章主要介紹瞭解決這個問題的兩個基本步驟:1)怎樣把擁有權問題用數學語言建模;2)機器人怎樣在互動中學習這些模型。
1 建模
因為使用者對物品的擁有權不是簡單的 1 對 1 對應的問題,而且一個使用者對物品的所有權以為著一系列的責任和權利,另外一件物品可能被幾個人同時擁有。為了完整地表達使用者,所有權,規範這三者關係,就需要把物品、主人和(物品的)規範這些都包含在不同的知識表達中。因此文章把擁有權問題建模變成三個子問題:1)用謂語邏輯把擁有權和物品聯絡起來; 2)用資料庫維護針對物品的動作許可權(在文中只是針對有主人和無主人的物品);3)用概率圖模型維護物品和各使用者的所有關係。
1.1 物品擁有權和規範的聯絡
怎樣把物品所有權和規範聯絡起來呢?比如說有一個規範說機器人不能丟掉有主人的物品,那麼通過之前的物品所有權的學習,機器人眼中的物品所有權規可以通過 Prolog 正規化進行描述,例如:
這個式子中,O 表示任意物品,A 表示一個個體。所以這個式子在系統中的規則描述就是:
這種關係是文章側重介紹的重點,之後介紹的機器人利用概率推論進行學習過程也是主要針對這個部分。
1.2 關於物品的許可權的規範處理
社會的規範可以包含很多方面,對於以機器人-物品互動為中心的許可權,最主要的就是禁止(forbid)對某件物品進行動作。因此在文章中的許可權,主要指 allow 和 forbid 兩種許可權處理,以謂語邏輯進行表示,就是 和 。
1.3 概率圖模型表示所有權
文章用雙向圖表示物品的所有權,其中物品頂點(object node)和使用者(agent node)之間的邊(edge)表述該使用者擁有該物品的概率。另外這個概率只是表示機器人猜測該物品被使用者 n 擁有的猜測,是沒有互斥性的。所以如果一個物品有 n 個潛在的擁有者,n 個概率相加可能會大於 1。這種一個物品被多個使用者擁有的情況也是符合現實情況的。
2 擁有權學習
學習過程是通過人機互動更新上述三種知識表示的過程。比如說當一個使用者指示機器人不要拿起一個看似沒人用的茶杯時說:「不要拿,這是 Cassey 的茶杯」。這句簡單的話需要同時更新三個知識表示:1. 擁有權:茶杯是屬於 Cassey 的;2. 許可權:機器人禁止(forbid)拿起茶杯;3.(一般的)社會規範:機器人不應該拿起茶杯,因為它是屬於 Cassey(或者其他人的)。另外使用者在人機互動中的命令有多種形式,可能只是一般性的擁有權指示,或者許可權指示,或者兩者俱有,因此當具有其他兩種知識時,機器人系統也應該具有推斷預測第三種知識表示的能力。所以如下圖所示,本文是根據 forbid 的命令,可以推測學習物品擁有權,或者學習相反的規則:
2.1 規則學習
在學習知識的演算法上,文中也提出了 3 個步驟,其中第 1 步是針對知識表示中的第 2 中,學習以物品為中心的許可權處理,文中定義了禁止(forbid)是正樣本(positive example),允許(allow)為負樣本(Negative example),提出了 4 種規則學習演算法。
其中演算法 1 和 2 是基於 separate-and-conquer 演算法,separate-and-conquer 演算法也叫 covering 演算法 [1.1],它反覆專門化制定一般規則進行迭代。在每一個迭代選擇專門的規則,讓該規則涵蓋正樣本的子集並排除負面的例子。在我們的例子中,例子主要是通過人機命令樣本(「不許拿桌上的茶杯」)來建立物品的擁有權的猜測。
而且因為這種規則學習是建立於與人環境互動中的,與一般的 separate-and-conquer 演算法不一樣,這是一種線上學習過程,當一個新的樣本被接收時,規則的改變是通過 beam search 逐漸改變,規則的更新是基於一個返回值 score 來確定是否接納/移除新的規則。另外 separate-and-conquer 規則跟流行的 divide-and-conquest 的主要區別是該演算法考慮新規則時,會同時考慮正負兩方,會盡量最大化正樣本和最小化負樣本。關於 separate-and-conquer 和 divide-and-conquest 的結合和比較,可以參考 [1.2]:
當使用者直接提出一個規則(例如「不要拿髒的東西」),機器人可以利用演算法 3 和 4 直接進行 one-shot learning。但要注意在演算法 3 加入的正規則(forbid)要儘量不滿足負樣本(negative example),演算法 4 中的負規則(allow)儘量不滿足正樣本(positive example)。
2.2 通過環境的所有權預測
機器人可以通過對環境的感知,預測物品的所有權。比如一個人在一個物品附近時,機器人會認為附近桌子上的物品是屬於這個人的。因為機器人操作的動態和稀疏場景,所以文中採用了 KLR(Kernal Logistic Regression)分類物品的所有權(的概率)。KLR 採用了物品的顏色,位置和使用者互動的時間來估計該概率。(但這個文中沒有詳細說,估計有另外的論文描述)。
2.3. 所有權推測
所有權推測跟預測不同,「推測」是機器人根據使用者的命令(比如「禁止拿茶杯」)通過貝葉斯公式推測該物品被擁有的概率。
2.4. 三者組合
將上述 3 種學習結合起來需要處理兩種矛盾問題:2.1 和 2.3,當引進的規則跟貝葉斯學習的規則相排斥,文中採用了更適合實際工程的啟發性演算法,參考了推測的規則的概率:如果 10% 或者以上的使用者直接規則跟推測的規則相反,系統將嘗試引入新的規則。相反,規則不會被更新,而只會被用到所有權推測。
另外,為了解決機器人的感知 2.2 和所有權推測 2.3 的矛盾可能性,文章直接採用了將 2.2 的結果作為 2.3 的輸入(比如 P(ownby(O,A))。
3 實驗
文章主要採用了模擬器實驗結合實際機器人的視訊演示。其中模擬器實驗定量分析了三個實驗:
3.1 規則學習
提供以物品為中心的指示,學習一般性規則。可以看出在有噪音的情況下,如果允許率為 0.25,F1 只在 0.5 上下。
3.2 所有權預測和推測
這個實驗主要測試 2.2 和 2.3 的內容。結果現實無論在規則提供與否,結果相差不大,顯示在學習過程中 2.2 和 2.3 結合的比較緊密(也可能是因為 2.2 的輸出其實也是 2.3 的輸入)
另外文章也進行了任務測試和視訊演示 https://bit.ly/2z8obET,總體來說文中的解決的問題(讓機器人在互動中學習規則)很有創新性,但提出的方法缺乏比較性,而且實驗資料似乎還有提高空間(可能是演算法問題,也可能是思路問題)。
分析師評論:這篇文章利用規則演算法和其他(主要的)符號演算法,試圖讓機器人在人機互動中理解物品的所有權和社會規則問題。因為整個系統是幾個問題的結合,作為採用了幾種不同的方法(包括規則學習,貝葉斯學習,視訊分類等)。作者嘗試用一篇短短 8 頁的文章來介紹整個所有權分析推測的機器人系統似乎有點短,所以有些技術細節一筆帶過了,讀者似乎要讀取其他的引用文章來獲取更多的資訊。另外實驗中的樣本也比較偏少,雖然作為一篇會議文章(雖然是 tier one 會議)是足夠,但期待作者可以進行更多的實驗和寫更多的技術細節到下一篇文章(比如期刊文章)中。
Mirroring without Overimitation: Learning Functionally Equivalent Manipulation Actions
Hangxin Liu, Chi Zhang, Yixin Zhu, Chenfanfu Jiang, Song-Chun Zhu
Link:
http://www.stat.ucla.edu/~sczhu/papers/Conf_2019/AAAI2019_Mirroring_Actions.pdf
第二篇文章是著名的 UCLA 朱鬆純教授和他的合作者貢獻的文章「Mirroring without Overimitation: Learning Functionally Equivalent Manipulation Actions」。但這個研究跟朱教授擅長的計算機視覺有聯絡但不是完全相關,而是利用示教(LfD(learning from demonstration)),令機器人模擬人的映象神經元(Mirror Neuron)運作進而來控制機器人的對物品的操作能力。當然 LfD 和映象神經元都不是最創新的概念,但該文跟之前的 LfD 不同之處是提出了機器人的示教學習應該「功能等同性」(functionally equivalent)。具體來說,機器人模擬人的動作,不需要完全學習每個細節動作(overimitation),而只需要學習完成對應的目標。因此在本文的上下文中,「目標」(goal) 被定義為目標物件的期望狀態並該狀態應該語法模型中編碼。
本文的創新性在於 1) 採用了觸覺手套來感應不同程度的力度,2) 通過 Q 強化學習和語義模型,以目標為主(goal-directed)學習對應的狀態和力度;3)利用物理模擬器模擬不同的機器人動作和力度可以建立功能等同的動作。
1. 知識表示
文章把完成一個目標動作處理成層次性 Temporal And-Or Graph (T-AOG) 的資料結構。T-AOG 是朱老師一直推崇的層次級有向圖模型,可以用下面的序列描述
G=(S,V,R,P, σ),其中 S 表示一個具體的目標動作,比方說「開啟水瓶」,而 V 是代表有向圖中的「And Node」或者「Or Node」。圖中的最末端表示的是各個基本動作,表示把環境(物體)從一個狀態 S_t,通過力量 F,到另外一個狀態S_{t+1} 的過程。因此學習過程變成學習各個節點之間的概率 P(α | β) = P(r) 的過程。
2 學習過程
2.1 強化學習施力和狀態的關係
為了便於實現,文章使用物件上的力分佈作為力的狀態空間,並將 K 均值聚類應用於由不同機器人動作生成的力分佈。然後對組中的力分佈進行平均和歸一化。對於狀態表示,文章將瓶蓋的距離和角度離散化並將它們標準化為 [0,1]。最後,以時間差異的方式應用著名的 Q 學習規則來學習力和狀態關聯。
2.2 學習目標導向的語法
由策略學習的人 - 物件互動(hoi)序列自然地形成來自隱式語法的解析句子的空間。因此,可以按照後驗概率通過 ADIOS [2.1] 恢復語法結構。
2.3 映象學習
為了讓機器人學習動作映象但又避免過度模仿,文章利用了基於物理的 Neo-Hookean 模型模擬器對學習出來的模型進行測試。映象動作首先通過模擬下的力分佈來操作,然後與學習得出的力分佈進行比較。然後選擇與學習的力的概率分佈的最小距離的動作(如下圖所示)。在本文中使用 KL 散度作為距離度量。
最後本文的各項功能整合起來如下圖所示:
3 實驗
文章採用了雙臂 7-DoF Baxter 機器人。整個系統在 ROS 上執行。收集手部姿勢時使用開放式觸覺手套和力資料,該手套配備有 i)15 個 IMU 的網路以測量各個趾骨之間的旋轉,以及 ii)使用 Velostat(一種壓阻材料)的 6 個定製力感測器來記錄 每個趾骨上的兩個區域(近端和遠端)的力和手掌上的 4×4 區域。手腕和手腕部分(即瓶子和蓋子)之間的相對姿勢是從 Vicon 獲得的。資料收集過程如下圖所示。
在學習過程之後,在機器人上執行學習模型如下圖所示讓機器人完成開啟藥瓶的動作。首先從學習策略引起的 T-AoG 中對解析樹進行取樣,以獲得機器人應該模仿的一系列力型別,以便引起物件狀態的相對變化。然後,Baxter 機器人的執行從初始位置開始並順序執行相應的基元。在下圖中,a6 會產生由機器人手腕中的力感測器(左上)捕獲的力,比較資料表明提出的映象方法確實比 baseline 方法能成功開啟瓶子。
分析師評論:研究針對以目標為主的動作學習,利用不同模態(力度,攝像頭等)的感測器採集足夠的資料,似乎達到不錯的學習效果。另外利用層次的圖 T-AOG 也能更好表示機器人的狀態變化,達到更好的控制效果。比較其他機器學習和機器人結合的研究組(比如 [2.2])如今主要採用深度學習+強化學習,似乎有更好的可解釋性。
Cognitive Deficit of Deep Learning in Numerosity
Xiaolin Wu, Xi Zhang, Xiao Shu
Link: https://arxiv.org/abs/1802.05160
第三篇論文跟深度學習的可解釋性和認知學習有關。標題是「Cognitive Deficit of Deep Learning in Numerosity」,是來自上海交大和加拿大麥克馬斯特大學的合作研究。
文章研究了是否能用當今的深度學習方法來模擬簡單的人類認知活動「Subitizing「。Subitizing 中文沒有固定的翻譯,一般叫「數覺」或「數感「。詳情可以參看「知乎日報」:https://daily.zhihu.com/story/4066465。簡單來說,人除了有逐一數數的能力以外,也有一眼認出 5-6 以下物體數量的能力。而如今的深度學習雖然有與人相比擬,甚至超過人類的物體/臉孔辨識能力,但是能否也有與人類類似的「數覺」能力?本文也想探究更深次的深度學習:黑盒子的深度學習是否可以達到人類的抽象和推理水平,這種超出了一般(畫素)的統計學學習能力。
DCNN(深度卷積網路)可以用來計算特定環境中特定型別的物體,例如街道上的行人或顯微鏡下的細胞。但是這些這些方法不能像人類一樣在不同背景的不同物件之間進行推廣。Subitizing 需要在畫素中抽象出面或單元格個數的自然數字。和一般 CNN 的分類問題不同的是,要實現 Subitizing 的主要問題是抽象物體的個數(也和符號化有關),但與物體具體的形狀、顏色等幾何資訊相關性不大。
文章採用瞭如下的資料集進行訓練。訓練的影像都是合成和沒有噪聲干擾的。
在實驗一,文章採用了最直接的方法,嘗試在測試集改變圖形的大小形狀顏色等資訊,由此測試 DCNN 模型是否具有大小形狀顏色的泛化能力。文章在這裡利用了下面的 DCNN 模型進行訓練:
但結果不太令人滿意,除了在第一個測試裡,網路可以分辨出按比例擴大的圖形,其他實驗(包括改變形狀,改變顏色,把訓練影像改變成環狀等),基本網路不能完成 Numerosity 的任務。(下面是部分實驗結果,包括改變顏色,測試集影像是訓練影像的環狀版本)。由此看來,當影像在空間域裡面的概率分佈改變了,在 DCNN 裡基本很難辨識出來。
在第二個實驗中,作者嘗試把上述的幾何資訊歸一化, 只把所有的影像邊緣用來訓練和測試:
比起第一個實驗,網路學習歸一化(也就是經過邊緣檢測)的影像達到較好效果(如下圖所示)。但識別率還沒達到人的 Subitizing 標準。
在第三個實驗裡,文章繼續對圖形進行計算機視覺的形態學預處理。以下幾個預定義的核卷積運算元,以此來提取相關的拓撲資訊,而不是直接用原始影像來進行 DCNN 處理。但作者經過嘗試發現,這些核卷積運算元只能預定義,而不能通過一般的反向傳播學習來達到收斂。
分析師評論:這篇文章建立了簡單的連線模型 (connectionist),和改變訓練和測試集性質等辦法做了初步的深度學習和認知學關係的測試。作者認為, 如今流行的 DCNN 方法 (或者只憑借深度學習) 並不能實現 Subitizing 等簡單的人類認知功能。而通過新增預定義的卷積運算元,效果會提高。這是否意味著要某些提取物體基本的拓撲學資訊,而這些計算要在人腦中內建(innate)呢?另外除了 Subitizing,和人的手勢相關的數數(counting) 的連線學模型研究,可以參考 [3.1][3.2]。
參考文獻:
[1.1] Fürnkranz, Johannes. "Separate-and-conquer rule learning." Artificial Intelligence Review 13.1 (1999): 3-54.
[1.2] Boström, Henrik, and Lars Asker. "Combining divide-and-conquer and separate-and-conquer for efficient and effective rule induction." International Conference on Inductive Logic Programming. Springer, Berlin, Heidelberg, 1999.
[2.1] http://kybele.psych.cornell.edu/ADIOS/
[2.2] Levine, Sergey, et al. "Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection." The International Journal of Robotics Research 37.4-5 (2018): 421-436.
[3.1] De La Cruz, Vivian Milagros, et al. "Making fingers and words count in a cognitive robot." Frontiers in behavioral neuroscience 8 (2014): 13.
[3.2] Rucinski, Marek, Angelo Cangelosi, and Tony Belpaeme. "Robotic model of the contribution of gesture to learning to count." Development and Learning and Epigenetic Robotics (ICDL), 2012 IEEE International Conference on. IEEE, 2012.