淺談人機互動及機器人的行為設計

ControlPlusAI發表於2018-10-22

淺談人機互動及機器人的行為設計

本文翻譯自作者博士論文《Desigining Robot Behavior in Human-Robot Interactions》第一章。論文地址:https://escholarship.org/uc/item/8tz6x0t9

人機互動(Human robot interactions, HRI)是未來機器人的關鍵構成部分,在許多領域有著廣泛的應用,如製造業、交通運輸、服務業、以及娛樂業。

在工廠裡,機器人正在離開它們的籠子,開始與工人們合作。工業製造商們正在柔性生產線中引入協作機器人,這樣的人機生產單位可以有效地將人類的靈活性和機器人的高效性結合起來。同時,自動駕駛汽車將徹底改變當今的交通系統和人們的出行方式。但是,當自動駕駛汽車在公路上與人類駕駛的車輛進行互動時,這對道路安全提出了新的挑戰。另一個例子是醫療康復領域的外骨骼機器人。這些外骨骼機器人常被用來幫助中風患者重新行走。患者和機器人之間存在密切的物理接觸和互動。其他的諸如護理機器人或機器人導盲犬都存在很大的需求,且涉及人機互動

上述應用對社會和經濟有著巨大的影響。未來的機器人將與人類比肩。它們是能夠自主決策的獨立實體,能與物理世界互動的智慧執行器,並且是具有豐富感官和理性批判的觀察者。最重要的是,他們能與人類建立社會關係。我們稱這樣的機器人為協同機器人(Co-Robot)。

當然,設計協同機器人在技術上非常具有挑戰性。傳統機器人的工作環境是結構化和確定的。而協同機器人需要在高度非結構化和隨機環境中執行。最基本的研究問題是:如何保障協同機器人在動態不確定環境中安全且高效地執行。

由於人機互動的廣泛性和複雜性,在解決基本問題時需要考慮以下幾個方面,下文中會詳細闡述。

• 多種互動模式

協同機器人的潛在應用存在於不同的領域,具有不同的互動模式。為各種模式的人機互動應用設計一個統一的模型是必不可少的。該模型可以用來提供對人機互動的全面理解,指導機器人行為的設計,並作為人機系統效能評估的分析框架。

• 行為設計及其軟體實現

行為是對內外環境因素刺激所做出的能動反應。我們研究設計機器人行為的方法,即如何在設計範圍內(機器人系統的輸入和輸出)實現設計目標(以確保協同機器人在動態不確定環境中高效安全地執行)。被設計過的行為將以軟體程式碼的形式被儲存在機器人硬體中。當環境或任務變得更加複雜時,軟體的複雜性將急劇增加。為了確保機器人能及時對環境變化做出反應,並確保機器人在操作過程中的安全性,實時的計算和驅動至關重要。這依賴於高效的演算法。

• 複雜人機系統的分析、綜合和評估

機器人行為是否設計得當,需要在人機系統中進行評估。評估既可以在理論上進行,也可以在實驗上進行。理論分析的難點在於,軟體模組之間的耦合大大增加了系統的複雜性。而進行實驗的難點在於,當人類作為受試者處在實驗環境中,為人類安全起見,系統對失敗的耐受性極低。因此,為人機系統開發有效的評估平臺至關重要。

1. 互動模式

人與機器人之間的互動可以有各種模式。我們將它分為兩種關係:平行關係(Parallel relationship)和層級關係(Hierarchical relationship)。

平行關係

在平行關係中,人和機器人是兩個獨立的實體,它們各自獨立做出決定,在文獻中也稱為同伴互動(peer-peer interaction)[30]。並行關係的典型示例是:自動駕駛汽車與人開的車之間互動,工業協作機器人和生產線中的工人之間的互動。在這種情況下,機器人(自動駕駛汽車或工業協同機器人)和人(人開的車或工人)是對等的,而不是主從關係。在下圖所示的平行關係中,人和機器人的動作有時需要同步(synchronized),比如當人和機器人共同移動一個工件時,有時則需要非同步(asynchronized),比如兩輛車在過十字路口時,不能同時佔用衝突區。我們將同步操作稱為協作(collaboration);將非同步操作稱為競爭(competition)——總會有一輛車首先透過沖突區域。競爭是最常見的互動模式。如果人類和機器人競爭的資源是空間,競爭可以被理解為避免碰撞。

淺談人機互動及機器人的行為設計

層級關係

在層級關係中,人或機器人將一部分決策權讓渡給了另一方。下面列出了層級關係中的典型示例,如下圖所示。

  1. 自動駕駛汽車與車內乘客之間的互動,其中人類乘客將駕駛權轉移至車輛。 

  2. 機器人護士和患者之間的互動,其中機器人決定患者的運動軌跡。

  3. 人和輔助裝置(如外骨骼)之間的互動。人類可以由機器人引導,但也可以“對抗”機器人。 

  4. 人類駕駛員與駕駛輔助系統之間的互動。駕駛輔助系統可以作為“守護天使” [56] 存在。它允許人類在安全情況下做決策,但它會在緊急情況下接管。另一種輔助系統更像“奴隸系統”。它在安全情況下負責做決策,在緊急情況下要求人類接管。

  5. 人類老師與機器人學員之間的互動,例如人類透過示範教授機器人技能。在這種情況下,機器人遵循人類決定的軌跡。 

  6. 操作員和遠端操作機器人之間的互動,其中機器人完全遵循人類的命令。

淺談人機互動及機器人的行為設計

如以上示例中所討論的,責任分配因不同層級互動而不同。當人類主宰決策過程時,它又被稱為監督式互動 [99]。

上面講述的是單人和單機器人之間的互動模式,多人和多機器人之間的互動模式可以從這些基本的互動模式中衍生出來。論文的第二章將提出一個多智慧體模型,以提供一個統一的框架來分析各種型別的互動,其中個體的人或機器人都將被視為智慧體。

2. 設計機器人的行為

我們從物理運動的角度研究行為設計,例如: 如何在互動過程中產生安全高效的運動軌跡。

行為系統三要素

為了生成有效的機器人行為,我們需要

  1. 向機器人提供正確的知識,知識包括兩個要素,體現任務要求的成本函式,和描述環境動態的世界模型;

  2. 設計正確的邏輯策略以讓機器人能自主地將知識轉化為行動;

  3. 設計學習過程以更新知識和邏輯,以使機器人適應未曾預見的環境。

知識,邏輯和學習是行為系統的主要組成部分,如下圖所示。在框圖中,機器人從有人類參與的環境中獲取資料π,並根據邏輯函式g生成動作u,通常而言,這個對映是在世界模型的基礎上最小化成本函式計算得到的。學習過程基於資料π更新知識和邏輯。學習模組是非常必要的,因為設計的知識可能無法涵蓋所有可能的場景,而且環境可能是隨時間變化的。該數學模型將在第二章中進一步說明。

淺談人機互動及機器人的行為設計

機器人的一生

機器人的一生分為三個階段:設計階段,訓練階段和執行階段,如下圖所示。我們將前兩個階段稱為離線,將第三個階段稱為線上。

淺談人機互動及機器人的行為設計

在設計階段,我們需要為機器人設計上述三要素。在訓練階段,機器人可以從經驗或從人類的示範中學習新的知識。從人類示範中學到的知識與人類設計的知識之間的區別在於,前者不需要人類對知識進行數學的或定量的表示。在許多情況下,這種數學表達很難獲得並且非常不直觀。例如,對人來說,比劃一條軌跡比寫出一段軌跡的數學函式容易多了。在執行階段,機器人執行其任務並與其人類同伴進行互動。在執行任務時,機器人可以透過線上學習更新知識或邏輯。然而,由於計算能力的限制,線上學習僅限於小規模的引數自適應。諸如從頭學習新技能等結構變化只能透過訓練階段的離線學習來完成。訓練階段和執行階段可以在永久學習系統(life-long learning)中迭代地執行。機器人也可能直接從設計階段進入線上執行階段而無需經過培訓階段。

設計還是學習

知識是行為系統的核心。應該設計多少,應該學習多少,仍然是有爭議的 [28]。雖然知識可以學習,但邏輯和學習這兩個模組對應的是演算法,需要被設計。有三種方法可以獲得邏輯g,如下圖所示。圖中的輪廓表示內部成本。顏色越深,成本越高。而邏輯g是從π到u的對映。 

淺談人機互動及機器人的行為設計

  1. 我們可以求解在設計階段透過最佳化顯式地解出g,如圖a中紅色曲線所示的精確策略。由於內部成本是非凸的,因此函式g可以是不連續的。 

  2. 最佳化也可以在執行階段線上求解。需要設計演算法(例如,梯度下降),使得給定任何觀察π,都能算出理想的控制輸入。這提供了一個隱含的策略,如圖b所示。由於非凸性,線上計算的控制輸入u可能僅是區域性最優。這兩種方法裡知識是顯式的,因此是基於模型的邏輯。 

  3. 我們還可以在訓練階段使用引數函式(例如神經網路)來近似策略。首先我們需要一組由(π,u)序列構成的訓練資料。然後從訓練資料中近似得到函式g,如圖c所示。由於不需要明確的知識,這是一個無模型的邏輯

現有方法在設計上各有不同。我們將這些方法概括為以下四個類別,從自然導向(nature-oriented)到培養導向(nurture-oriented),如下圖所示。

類別1(自然導向):設計者指定成本和模型,設計邏輯以顯式地最佳化成本函式,無需任何學習過程。代表性方法有:基於經典控制和馬爾可夫決策過程(MDP)的方法,它們在設計階段獲得精確的策略,例如在柔性機器人關節的控制[63,137] 或安全危急情況下的控制 [49, 152];模型預測控制(MPC)方法,它們在執行階段 [26, 90, 94] 計算最佳化。

類別2(偏自然導向):設計者指定成本,明確設計邏輯,並用學習過程來識別世界模型。經典自適應控制和自適應MPC屬於這一類。這種方法在人機互動中的應用可以在 [46, 81, 98, 121] 中找到。這種方法的優點在於它可以在不確定的、時變的環境中應對自如。尤其是當環境中有人類時,此時系統具有巨大的不確定性及時變性。與此同時,設計者仍然可以透過明確的知識和邏輯設計來控制任務的完成情況。

類別3(偏培養導向):設計者只是明確地設計邏輯和學習過程。透過反覆試錯或專家演示,機器人在訓練階段獲得知識。代表方法是基於模型的強化學習(reinforcement learning)和反強化學習(inverse reinforcement learning),如學徒學習(apprentice learning) [1, 7, 41]。這種方法在人機互動中的應用可以在  [4, 103, 135] 中找到。該方法的優點是在設計階段不再需要對任務和環境進行數學建模。

類別4(培養導向):設計者明確地設計學習過程並使用函式(例如神經網路)來近似邏輯。機器人將在訓練階段獲得知識(例如網路中的引數)。與類別3不同,知識不是顯式學習的,而是在網路中的隱式編碼。代表性方法是深度強化學習(DRL)[100] 和模仿學習(imitation learning) [65]。模仿學習中,除了人類以外,模仿物件可以是類別1至3中的行為系統 [130]。這種方法適用於擁有以下特徵的問題:任務和環境極難建模,狀態空間太大,實時計算至關重要的情況。

3. 人機系統的評估

人機器人系統的評估可以在理論上和實驗上進行。

理論評估

在理論分析中,要回答的問題是:

  1. 設計的邏輯是否會在給定成本和模型的情況下找到最優行動? 

  2. 學習過程會產生收斂的模型序列嗎?

  3. 設計的成本函式是否能在多智慧體系統中觸發期望行為?

前兩個問題是模組化的。第三個問題是系統方面的問題,它涉及閉環系統的魯棒性、穩定性和最優性,例如,閉環多智慧體系統是否是自組織(self-organized)的 [91]。系統級分析具有很大的挑戰性,因為不同智慧體之間的互動具有高度複雜性,人類行為常常並不符合假設(如理性人假設),博弈論中現有工具不足以分析次優智慧體。在第七章中,我們將探索一種新的方法來分析次優智慧體在宏觀系統中的效能。

實驗評估

對於人機器人系統的實驗評估,需要考慮在早期階段保護人類受試者。基於這樣的考慮,我們可以充分利用虛擬現實技術以及遠端遙控來在物理上分離人和機器人,同時達到測試的目的。比如下圖就是一種利用虛擬現實技術進行人機互動的示例,實驗參與者透過VR頭盔與虛擬中的機器人進行互動(圖片源自AutoDesk)。

淺談人機互動及機器人的行為設計

結語

隨著智慧機器人越來越多地出現在人們的生活中,人機互動將會更廣泛地發生。同時,有許多問題亟待研究。對這些問題的探索需要多學科的融合和交叉,如工程學科與社會學科的融合,工程學科與腦科學的融合,以及在工程學科內部,機械設計與演算法設計的融合,以此創造更好的智慧機器人服務大眾。與此同時,作為矽基智慧體的創造者,炭基智慧體也可以此更好地審視自我。

相關文章