在類人機器人的發展之路上,ERICA 是一個不能不提的存在,她具有栩栩如生的外觀設計和出色的語音合成系統。機器之心技術分析師對相關論文進行了解讀。
論文地址:http://ieeexplore.ieee.org/document/7745086/
引言
這篇論文介紹了一個自動化機器人系統 ERICA,該系統能夠進行對話互動,具備先進的感測和語音合成技術,並被一些人認為是截至目前最像人類的機器人。
ERICA 有出色的視覺設計、面部表情和具有很高表現力的語音合成器,是當今最像人類的機器人。她的感測技術基本上是目前能力最好的技術,並配置了高效能的語音識別,能夠使用麥克風陣列區分不同的聲源以及精準追蹤人們的位置和運動狀況。
開發者的目標是讓 ERICA 能以讓人信服的類似人類的方式與人類進行面對面的交流。
背景:當今的機器人
侷限性
近些年來,不管是研究界還是大眾媒體,機器人都越來越常見了。新聞中出現了名人和個人的機器人複製品,電影和電視節目也在描繪人與機器人共同生活的場景。但是,當今的機器人在執行自動會話互動方面的能力還非常有限。當今的機器人可分為以下類別:
類別
- 非人形機器人和虛擬智慧體:能夠進行非常擬真的會話互動的虛擬智慧體已經被創造了出來。Virtual Human Toolkit [1] 提供了一整套對話和角色設計工具,可用於開發看起來很真實的動畫圖形角色。Furhat [2] 則是開始試圖將 2D 世界與 3D 世界連線起來的機器人,它具有一個可運動的頭部和使用反向投影的面部,能夠展現各種各樣的面部表情。
- 人形機器人:研究者已經開發出了一些具有不同程度類人度的人形機器人,有的能夠使用看似自然的姿勢和其它社交線索執行相關的互動。這些機器人的造型各異,有機械式的,有動物式的,也有卡通造型和抽象形象。Leonardo [3] 就是一個表達能力很強的機器人,是專為人類互動研究設計的。Aldebaran 的 Nao 機器人已在人機互動研究中得到了廣泛的使用,軟銀的 Pepper 也有望成為另一個能實現豐富的人機交流的平臺。
- 擬人機器人:現在已有一些看起來就像人類的機器人。漢森機器人公司已經生產出了很多具有高度表現力的人頭機器人,比如 PKD [4]、BINA48、Han 和 Jules,其中某些被安裝在一個身體上。這些機器人具備先進的人工智慧技術和表達清晰的面部表情,但看起來還是很機器人,有時候還能看到金屬部件或暴露的線纜,而且一般還缺少具有表現力的語音合成技術。Geminoid 機器人系列 [5] 也具有高度擬人的外觀和表情。
平臺架構
這裡我們介紹 ERICA 的平臺架構。
硬體和驅動
ERICA 的機械和美學設計是與機器人制造商 A-Lab 合作開發的。
外觀
她的面部特徵比例遵循整容手術中使用的美學理論原則,比如通過所謂的“維納斯線”(即 Baum 比例)的理想角度和比例定義了鼻子的投影角度,通過“三分法原則”確定了下巴、鼻子、眉毛和髮際線之間的等距離的垂直區域 [7]。
整體而言,ERICA 的身體有 44 個自由度(DOF),如圖 2 所示,其中 19 個自由度是可控制的。圖 2 的右圖展示了其主幹骨架。
圖 2:ERICA 的自由度。左:面部自由度。右:骨架自由度。用黑色標註的關節是主動關節,白色的則是被動關節。
語音合成
ERICA 的語音合成使用了為 Hoya 的 VoiceText 軟體設計的定製語音。大多數句子的預設呈現方式通常都是平滑的,語調由語法決定,而且也可以通過人工方式設定音高、語速和聲音強度指標。語音合成器生成的音訊訊號會被髮送回機器人以生成嘴脣同步和身體運動行為,如圖 3 所示。
感測
ERICA 目前使用的是有線網路連線的外部感測器來跟蹤人類的位置,定位聲源以及識別語音和韻律資訊。圖 3 的左側即為其感測框架。
圖 3:ERICA 系統圖示,其中包含感測器輸入、內部控制邏輯以及與語音合成和運動生成的互動
控制架構
ERICA 平臺的軟體架構結合了一個記憶模型、一組用於生成動態運動的行為模組以及一個用於對話管理的靈活的軟體基礎設施。圖 3 的中圖即闡釋了該互動邏輯的核心元素。
公開展示
在公開展示過程中,開發者邀請了一些媒體人和參觀者上臺使用一個無線麥克風向 ERICA 或研究者提問,如圖 4 所示。
在投影屏上給出了 30 個主題的列表,來訪者可以按次序向 ERICA 詢問有關這些主題的問題。在迴應了每個問題之後,ERICA 也會基於對話狀態的歷史回敬一個問題。舉個例子(原對話為日語):
來訪者:你年紀多大?
ERICA:我 23 歲。雖然我才被開發出來,但請不要說我是 0 歲小孩。(笑)
ERICA:你認為我看起來會更大一些?
來訪者:是的,我確實這麼想。
ERICA:(咯咯地笑)謝謝!人們一般都認為我看起來更年輕,所以我很高興聽到你這麼說。
在演示過程中,ERICA 也會在不同的時間迴應研究者和主持人說的話。來訪者、主持人和兩位研究者都使用了各自的麥克風,而且每個麥克風的訊號都是單獨進行語音識別和韻律資訊處理的。這讓 ERICA 能以適當的方式迴應每一個人。比如:
研究者:(在回答了一個來訪者的問題之後轉向 ERICA)。ERICA,你是最棒的機器人,對不對?
ERICA:(轉向研究者並且微笑)是的!(然後,經過短暫停頓後,擺出一個擔憂的表情)嗯……實際上,我想想。這取決於給我程式設計的研究者做得好不好。
成就和未來研究
硬體平臺
至少有一家新聞機構以頭條形式報導了這場演示活動,參閱http://mashable.com/2015/08/12/erica-android-japan/,“日本的 ERICA 機器人沒有其它會說話的機器人那麼恐怖”。未來,全身姿勢和表現能力將會是必備的。
語音合成
語音合成的自然性和表現力已經相當讓人滿意。未來,話語將與姿勢和表情一起生成。
非言語行為
- 顯式的表情和姿勢:ERICA 具有微妙的面部表情,看起來像人一樣。但僅憑 ERICA 的硬體配置,創造非常誇張的表情是很困難的,但對於日常任務,微妙的表情應該會更有用,尤其是在習慣含蓄表達的日本文化中。
- 隱式行為:ERICA 互動期間使用了隱式行為模組來調節呼吸、眨眼、注視、說話節律和微微點頭等行為。未來,這些模組還會繼續改進,融入更多新的隱式行為,比如用於發出笑聲時的運動控制、無意識的擺動以及通過調整注視和身體運動來隱式地表達情緒的方法。
- 多模態感知:ERICA 已有的感測器網路對這一演示已經相當足夠了。未來還會收集伴隨語言傳達的資訊,實現在噪聲環境中的韻律資訊提取。
- 渴望和意圖:目前,ERICA 的應用邏輯都是人工設計的話語序列。未來將會結合 Interaction Composer [8] 等視覺工具來協助互動過程的設計。最終將有必要基於語義表示和機器人的渴望和意圖來生成行為。
總結
ERICA 是當今最像人的機器人,具有類人的外表、面部表情和高度表現力的語音合成器。她的感測技術也是當前最好的一些技術,具有高效能的語音識別能力,能夠使用麥克風陣列區分不同的聲源以及精準追蹤人們的位置和運動狀況。這項研究有助於我們理解能使用當前最佳的技術做成什麼,也能幫助我們解決創造真正類人的機器人之路上的關鍵問題,進而幫助我們找到前進的方向。
參考文獻
- A. Hartholt, D. Traum, S. C. Marsella, A. Shapiro, G. Stratou, A. Leuski, L.-P. Morency, and J. Gratch, "All together now: Introducing the Virtual Human Toolkit," in Intelligent Virtual Agents, 2013, pp. 368-381.
- S. Al Moubayed, J. Beskow, G. Skantze, and B. Granström, "Furhat: a back-projected human-like robot head for multiparty human-machine interaction," in Cognitive Behavioural Systems, ed: Springer, 2012, pp. 114-130.
- C. Breazeal, A. Brooks, J. Gray, G. Hoffman, C. Kidd, H. Lee, J. Lieberman, A. Lockerd, and D. Mulanda, "Humanoid robots as cooperative partners for people," Int. Journal of Humanoid Robots, vol. 1, pp. 1-34, 2004.
- D. Hanson, A. Olney, S. Prilliman, E. Mathews, M. Zielke, D. Hammons, R. Fernandez, and H. Stephanou, "Upending the uncanny valley," in Proceedings of the national conference on artificial intelligence, 2005, p. 1728.
- S. Nishio, H. Ishiguro, and N. Hagita, Geminoid: Teleoperated android of an existing person: INTECH Open Access Publisher Vienna, 2007.
- C. Becker-Asano and H. Ishiguro, "Evaluating facial displays of emotion for the android robot Geminoid F," in Affective Computational Intelligence (WACI), 2011 IEEE Workshop on, 2011, pp. 1-8.
- P. M. Prendergast, "Facial proportions," in Advanced Surgical Facial Rejuvenation, ed: Springer, 2012, pp. 15-22.
- D.F.Glas,S.Satake,T.Kanda,andN.Hagita,"AnInteractionDesign Framework for Social Robots," in Proceedings of Robotics: Science and Systems, Los Angeles, CA, USA, 2011.