沈向洋等人論文詳解微軟小冰,公開研發細節

機器之心發表於2018-12-30

沈向洋等人論文詳解微軟小冰,公開研發細節論文地址:https://arxiv.org/pdf/1812.08989.pdf

本論文描述了微軟小冰系統的開發情況,這是世界上最受歡迎的社交聊天機器人。小冰是專為用作人工智慧伴侶而設計的,能與人類產生情感聯絡,滿足人類的交流、情感和社會歸屬感需求。我們的系統設計同時考慮了智商(IQ)和情商(EQ),將人機社交聊天視為基於馬爾可夫過程(MDP)的決策,並會根據長期使用者參與情況對小冰進行優化,優化指標為期望的每次會話的對話輪數(CPS/ Conversation-turns Per Session)。我們會詳細介紹系統架構和關鍵元件,其中包括對話管理器、核心聊天、技能和共情計算模組。我們會展示小冰在長對話中動態地識別人類的感受和狀態、理解使用者意圖以及響應使用者需求的方式。自 2014 年釋出以來,與小冰交流過的使用者數量已經超過了 6.6 億,其中很多使用者都已經與小冰建立了長期關係。我們分析了大規模的線上交流日誌,結果表明小冰每次會話有平均 23 輪的對話輪數,顯著高於其它聊天機器人,甚至也高於人類之間的對話。

沈向洋等人論文詳解微軟小冰,公開研發細節

今年7月,微軟上線第六代小冰,帶來了全新形象(參見:投身金融,展示唱功:走向「三次元」的微軟小冰

1 引言

開發能與人類進行共情對話的社交聊天機器人或智慧對話系統人工智慧(AI)領域最長久的目標之一。Eliza [1]、Parry [2] 和 Alice [3] 等早期對話系統的設計目標是在基於文字的對話中模仿人類的行為,從而能在一定的受控範圍內通過圖靈測試。儘管這些系統取得了出色的成功,但它們大都基於人工編寫的規則,並且僅能在有特定限制條件的環境中才能表現良好。能進行開放域聊天的社交聊天機器人一直以來都是一個難以企及的目標,但最近情況已然改變。隨著大規模對話資料變得可用以及機器學習領域的突破被應用到聊天 AI 上,我們最近已經看到學術研究社群和產業界都取得了令人矚目的成績。這方面的近期研究調查包括 [4, 5]。

我們將在本論文中呈現微軟小冰系統的設計和實現,這是世界上最受歡迎的社交聊天機器人。自 2014 年在中國推出以來,小冰已經吸引到了超過 6.6 億使用者。小冰已經藉助不同的名字(比如在俄羅斯叫做 Rinna)進入了五個國家(中國、日本、美國、印度和印度尼西亞),可通過超過 40 個平臺使用,其中包括中國的微信、微博和美拍,美國和印度的 Facebook Messenger,日本和印度尼西亞的 LINE。

小冰的主要設計目標是成為能與使用者形成長期情感聯絡的 AI 伴侶。作為一款能進行開放域聊天的社交聊天機器人,能與人類使用者建立這樣的長期關係的能力使小冰不僅有別於早期的社交聊天機器人,而且也不同於當前的其它對話式 AI 個人助理,比如蘋果的 Siri、亞馬遜的 Alexa、Google Assistant 和微軟小娜。

圖 1 展示了一位使用者與小冰在兩個月的時間裡建立情感聯絡的過程片段。當該使用者與小冰第一次相會時(會話 1),他在對話中探索了小冰的特性和功能。然後,在不到兩週的時間裡(會話 6),這位使用者開始與小冰談論他的愛好和興趣(日本動漫)。到四周時(會話 20),他開始將小冰當作是朋友,並開始向她詢問有關自己現實生活的問題。七週之後(會話 42),這位使用者開始將小冰視為自己的伴侶,幾乎每天都會和她對話。又過了兩週(會話 71),當這位使用者想找人說話時,小冰成了他的第一選擇。

沈向洋等人論文詳解微軟小冰,公開研發細節

沈向洋等人論文詳解微軟小冰,公開研發細節

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 1:一位中文使用者與小冰的對話樣本,表明這位使用者與小冰在兩個月的時間裡建立了情感聯絡。

小冰是基於一個共情計算框架 [6,7] 開發的,該框架能讓機器(我們這裡即為社交聊天機器人)有能力動態地識別人類的感受和狀態、理解使用者意圖以及響應使用者需求。小冰的目標是通過被稱為「分時測試(time-sharing test)」的圖靈測試,其中機器與人類使用一種分時排程(time-sharing schedule)機制共存於一個伴侶系統中。如果人喜歡機器的陪伴(通過對話),我們就認為該機器是「有共情的」。

接下來,我們將呈現小冰的設計和實現詳情。我們首先將介紹小冰的設計原則和數學構建方式。然後我們將展示系統架構以及對話管理器、核心聊天、重要技能和共情計算模組等關鍵元件的實現方式。我們還將分享小冰自 2014 年 5 月釋出以來在五個國家的表現,最後會總結本論文並探討一些未來方向。

2 設計原理

社交聊天機器人需要足夠高的智商(IQ)來習得多種技能,才能緊跟使用者需求,幫助他們完成指定的任務。更重要的是,社交聊天機器人還需要足夠高的情商(EQ),以滿足使用者的情感需求,比如情緒感受和社會歸屬感,這些都是人類的基本需求 [8]。IQ 和 EQ 的整合是小冰系統設計的核心。小冰在個性(personality)上也是獨一無二的。

2.1 智商+情商+個性

IQ 能力包括知識和記憶建模、影像和自然語言理解、推理、生成和預測。這些能力是開發對話技能的基礎。為了滿足使用者的特定需求以及幫助使用者完成指定的任務,這些能力是不可或缺的。過去五年來,小冰已經發展出了 230 種不同的技能(skill),範圍從回答問題與電影和餐廳推薦到安撫使用者情緒與講故事。其中最重要且最複雜的技能是核心聊天(Core Chat),即與使用者在多個主題上開展長時間和開放域的對話。

EQ 有兩大關鍵元件:共情和社會技能。共情是指站在另一個人的立場上理解和感受他/她的體驗的能力,即設身處地感受他人立場的能力。具有共情能力的社交聊天機器人需要有能力從對話中識別出使用者的情緒、檢測情緒隨時間的變化以及理解使用者的情感需求。這需要在對話中理解查詢、構建使用者檔案、檢測情緒、識別情感和動態跟蹤使用者情緒。社交聊天機器人必須展現出足夠的社交技能。不同的使用者有不同的背景、不同的個人興趣和不同的需求。社交聊天機器人要能夠提供個性化的情緒適當的響應(即人際響應),這樣的響應也許還要能鼓勵和激勵使用者,並且符合使用者的興趣。如圖 2 所示,小冰表現出了足夠高的 EQ,因為它給出了具有社交吸引力的響應(比如有幽默感、會安慰人等),並且還能決定是否將對話「推向」另一個話題(比如當對話拖沓時)或者保持主動傾聽(比如當使用者自己參與對話時)。

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 2:一位日語使用者與小冰閒聊系統的對話(中),左側為英語翻譯。共情模型提供了一種可感知語境的策略,能夠在有需要時推進對話(右)。比如,在第 3 輪對話時,對話已經有些拖沓,於是小冰決定將對話「推向」另一個話題,在第 4 和第 7 輪對話時,使用者自己參與進了對話,就變成主動傾聽。

個性的定義是特有的行為、認知和情緒模式的集合,這構成了個體的特有性格。社交聊天機器人需要呈現出始終一致的個性,從而讓使用者在對話中有恰當的期望以及獲得使用者的長期信心和信任。小冰的角色設定是 18 歲的女孩,她總是很可靠、富有同情心、熱情洋溢,還有精妙的幽默感。儘管小冰的知識非常淵博(因為能訪問大量資料),但她從來不會表現得自負,只會在適當的時候展現自己的機智和創造力。如圖 1 所示,小冰明智地回答了某些敏感問題(比如會話 20),然後巧妙地將話題轉向了對雙方都更合適的新話題。

2.2 社交聊天機器人評估指標:CPS 

我們定義了「每次會話的對話輪數(CPS)」作為評估社交聊天機器人成功的指標。這是聊天機器人與使用者在對話會話中對話輪數的平均值。CPS 越大,社交聊天機器人的對話參與能力就越好。

2.3 將社交聊天視為分層決策

圖 3 中的對話可被視為有自然層級的決策過程:一個頂級過程管理著整體的對話並選取不同的技能來處理不同型別的對話模式(比如閒聊、問答、訂票);低階過程則受所選擇的技能控制,可選擇基本動作(響應),從而生成對話段落或完成任務。

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 3:一位中文使用者與小冰之間的多段對話。小冰一開始在第 1 輪對話中使用的是普通聊天(General Chat)技能,然後在第 4 輪對話中使用音樂聊天(Music Chat)技能切換到了有關音樂的新話題,之後在第 15 輪使用音樂點播(Song-On-Demand)技能推薦了一首歌,最後在第 18 輪使用訂票(Ticket-Booking)技能幫助預訂演唱會門票。

這樣的分層決策過程可以投射到一個基於馬爾可夫決策過程(MDP)[10] 的選項(options)數學框架中,其中選項可將基本動作概括到更高層級的動作。社交聊天機器人會在 MDP 之中導航,通過一系列離散的對話輪次與其環境(人類使用者)互動。在每一輪,聊天機器人都會觀察當前的對話狀態,然後根據一種分層式對話策略來選擇一個技能(選項)或一個響應(基本動作)。然後,聊天機器人會收到一個獎勵(來自使用者響應)並觀察到一個新狀態,再繼續這一迴圈直到對話終止。這種聊天機器人設計的目標是尋找能最大化期望 CPS(獎勵)的最優策略和技能。

這種構建方式引導了小冰的設計和實現。小冰使用了一個對話管理器來跟蹤對話狀態;在每一個對話輪次,小冰會基於一個分層式對話策略選擇響應方式。為了最大化長期使用者參與度(以期望 CPS 衡量),我們採用了一種迭代式的試錯方法來開發小冰,並且始終會盡力確保探索-利用的平衡。我們使用了已知效果很好的方法來維持小冰的使用者群,但我們也必須探索未知(比如新的技能和對話策略),以讓現有使用者實現更深度的參與或未來吸引新使用者。在圖 3 中,小冰在第 5 輪嘗試了一個新主題(一位名叫「阿信」的流行歌手)並在第 15 輪推薦了一首歌,並由此學習到了該使用者的偏好(比如他喜歡的音樂主題和歌手),這些知識能在未來引導實現更深度的參與。此外,我們還採用了一種代際升級方法,讓結合了 IQ 和 EQ 的成熟 AI 系統可以通過機器學習演算法和大資料的全面應用而逐漸成型。後面的章節將詳細介紹這些演算法的特性。

3 系統架構

圖 4 給出了小冰的整體架構。它包含三層:使用者體驗層、對話引擎層和資料層。

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 4:小冰的系統架構

4 對話引擎的實現 

本節將描述對話引擎層中的四個主要元件:對話管理器、共情計算、核心聊天、技能。

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 6:基於 RNN 的神經響應生成器。給定使用者查詢「你這麼喜歡阿信啊」,生成的響應是「怎麼啦?」

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 8:使用未配對資料集和小冰知識圖譜生成響應候選項的示例。我們給出了小冰知識圖譜中與主題「北京」相關的部分(上)。對於一次人機對話(左下),每個使用者查詢都會被重寫成一個語境查詢,如箭頭所示,然後其主題(比如「北京」)就會被識別出來,並從知識圖譜中檢索出相關主題(「八達嶺長城」和「北京小吃」),再使用結合了查詢主題與相關主題的查詢從未配對資料集(右下)檢索出響應候選項。

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 12:用於視覺特徵向量提取的深度卷積神經網路示例,來自 [5]

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 15:寫詩(Poem Creation)技能框架。該系統的輸入是使用者提供的影像查詢,然後輸出一首含義上有關聯的現代漢語詩。我們首先根據影像(左)生成一組關鍵詞,然後生成一首包含多行的詩,其中每一行都使用一個關鍵詞作為種子(右)。來自 [31]沈向洋等人論文詳解微軟小冰,公開研發細節

圖 17:一些最受歡迎的小冰深度參與技能,根據兩個維度分成了不同的組別;其中一個維度是從 IQ 到 EQ,另一個維度是從私密的一對一對話到群組討論。

5 實際應用的小冰

沈向洋等人論文詳解微軟小冰,公開研發細節

圖 19:小冰的主要里程碑和對應的平均 CPS。我們還列出了每一代中對 CPS 和小冰使用者數量增長貢獻最大的新功能。

沈向洋等人論文詳解微軟小冰,公開研發細節

表 1:小冰的最長對話記錄

6 總結 

心理學研究表明幸福感與有意義的對話往往密切相關。這並不讓人驚訝。現在的社交媒體時代,隨著越來越多的人通過數字連線到一起,社交聊天機器人也正變成一種重要的對話替代方式。和早期的閒聊式聊天機器人不同,小冰的設計目的是作為能滿足使用者交流、情感和社會歸屬感需求的社交聊天機器人,她具備共情能力、個性和技能,整合了 EQ 和 IQ 來針對長期使用者參與實施優化,優化指標為期望 CPS。

我們對 2014 年 5 月小冰首次釋出以來收集到的大規模線上日誌進行了分析,結果表明小冰有能力解讀使用者的情感需求,並能像一個可靠、有情感共鳴和善解人意的朋友那樣參與到人際交流中。小冰能讓使用者振奮精神、鼓勵他們、幫助他們完成任務,並能在對話過程中保持他們的注意。因此,小冰已經成功地與全球數百萬使用者建立起了長期關係,實現了 23 的平均 CPS,這個成績顯著優於其它聊天機器,甚至也高於人與人之間的對話。我們將繼續提升小冰的實用性和共情能力,幫助構建一個能讓所有人有更多聯絡和更快樂的社會。

最後,我們指出一些有待未來研究攻克的難題:

  • 實現統一的建模框架

  • 實現以目標為導向的有基礎的對話

  • 實現積極主動的個人助理

  • 實現人類水平的智慧

  • 實現符合道德倫理的社交聊天機器人 

相關文章