作為人工智慧的一個子領域,自然語言處理(NLP)指的是機器理解並解釋人類書面語和口語的能力,目的在於使計算機像人類一樣智慧地理解語言和用語言表達,彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距。目前,NLP 已經具有了廣泛的應用領域,如資訊提取、文字生成、機器翻譯、情感分析、知識圖譜、智慧問答、對話系統等。其中,對話系統在最近幾年發展非常迅速,特別在 NLP 頂會上的論文數量逐步增多。如果說,自然語言處理是 AI 皇冠上的明珠,那麼對話系統就是「NLP 皇冠上的明珠」,並且以蘋果 Siri 等為代表的的任務型對話和以微軟小冰為代表的非任務型(聊天型)對話尤為受到學界和業界關注。所謂智慧對話系統,就是在各種智慧演算法的支撐下,使機器理解人類語言的意圖並透過有效的人機互動執行特定任務或做出回答。隨著技術的不斷髮展,任務型對話系統在虛擬個人助理、智慧家居、智慧汽車(車載語音)等領域有了廣泛應用。聊天型對話系統也在娛樂和情感陪護領域找到了應用場景。但我們應看到,這些傳統對話系統存在著一些問題,如語義理解不準確造成答非所問,對話中展示的身份與個性不一致而難以獲得使用者信任,以及對話互動中可能存在的道德倫理風險等。所以,如何規避解決這些問題並開發互動效果更好的下一代對話系統逐漸成為了業內的熱門研究課題。研究人員也基於各自不同的視角提出了對下一代對話系統的暢想。在首屆全球人工智慧技術創新大賽「AI 青年說」系列活動的第二期直播分享中,自然語言處理領域的兩位專家——清華大學計算機系長聘副教授、博士生導師黃民烈和西湖大學終身副教授張嶽,分別帶來了《下一代對話系統》和《關於開放域對話挑戰的思索》的主題分享,並以「關於讓機器說人話這件事」 展開圓桌討論。在本期分享中,清華大學副教授黃民烈為我們詳細介紹了任務導向型和開放域兩種主要的對話系統,並勾勒了下一代有知識、有個性和有情感的智慧對話系統願景。西湖大學副教授張嶽則向我們介紹了開放領域對話的挑戰思索,並從三個方面進行介紹,分別是跨領域可擴充性、社會常識推理和邏輯推理(又分為機器閱讀理解和文字蘊含問題)。在下文中,機器之心在不改變原意的基礎上對兩位專家的分享進行了整理。大家好,我是來自清華大學的黃民烈,今天非常高興能跟各位老師和同學做這樣的一個交流和分享。我的分享主題是《下一代對話系統》。我們知道,對話系統的歷史非常悠久,最早可以追溯到 1966 年 MIT 的 Eliza,這是一個以心理諮詢為代表的對話系統,在過去幾十年以及今天都產生了非常廣泛的影響。2011 年,蘋果推出了語音助手 Siri,使得這一類的對話系統在工業界引起了廣泛關注。2014 年微軟推出了第一款社交機器人微軟小冰,使得使用者可以跟對話系統進行聊天互動。2020 年又出現了很多超大規模的預訓練模型,包括 Google 的 Meena、 FAIR 的 Blender 和百度的 PLATO。這些預訓練模型將對話系統的研究推向了一個新的高潮,也就是說在開放域的聊天裡,我們可以生成非常好的、自然的對話。在對話系統的發展歷程中,我認為有一些比較重要的事件,比如 Alexa 大獎賽,2017 年第一屆、2018 年第二屆以及 2019 年第三屆。大獎賽對於對話系統的技術研究和推動具有非常顯著的作用。我們可以看到在這幾屆大獎賽上,最好的對話系統能達到什麼樣的水平呢?它們能夠透過人工評價的分數大概是 3.1 分,能夠跟使用者持續地聊上十分鐘。應該來說,這是一個非常了不起的成就。剛才我們所說的 Google Meena 對話系統,它是一個超大規模的模型,使用了約 26 億的引數,約 400 億詞的對話資料去訓練,並且在 TPU 上訓練了約 30 天的時間。Meena 對話系統的效果怎麼樣呢?它可以生成非常自然的對話,比如說在下面一個例子裡,Meena 說「牛很聰明,都去 Hayvard 了」。透過 Harvard 和 Hayvard 這個諧音雙關,現在的這種大規模對話模型可以產生比較自然,甚至讓使用者代入感很強的、類似笑話的對話。我們再來看 2020 年 FAIR 推出的 Blender,它的引數規模最大的版本約是 94 億,使用的資料也相當驚人。它用了約 8880 億個文字 token 訓練這樣一個模型,同時綜合了各種技能,比方個性的嵌入、知識的賦值以及共情。所以,Blender 是一個具有混合技能的對話系統,也可以產生非常自然的對話。當前對話系統可以總結為以下兩種型別,第一種叫任務導向型的對話系統,也就是通常意義上所說的手機助理;第二種叫開放域的對話系統,也就是我們通常意義上所說的聊天機器人。在第一種任務型的對話系統中,我們通常會有一些流水線的處理方法。如上圖(左)所示,使用者講了一句話「你能不能幫我找一箇中餐館」,這個時候我們就要經過自然語言處理模組,把這句話分析成一個結構化的意圖,這裡的意圖應當是為說話人提供資訊,這裡需要一些語義理解能力。接下來要做的是對話狀態跟蹤和對話策略學習,這個模組是為了管理對話過程中的一些對話狀態和相應的一些變數,使得我們這個系統能夠知道當前所處的是什麼狀態,以及接下來應該往哪個方向去走。在對話策略模組,我們會預測出來它相應的結構化意圖,它會透過自然語言生成模組轉換為一個自然語句,這裡就是「Where do you want to eat?」這樣一句話,然後進行使用者的互動。經過反覆的互動和迭代,我們的對話系統就能夠完成相應的任務和功能。另一種就是所謂的開放域對話系統。在這類對話系統中,我們通常採用一種端到端架構,就是說我們開始是有對話的上文,如上圖(右)給了三句話,其中使用者說了一句話,然後機器說了一句話,使用者又說了一句話,這個時候我們要決定機器到底該說什麼。經過編碼器之後,我們會再經過解碼器,它可以把機器生成的一句話,一個詞一個詞地解碼出來。我們可以採用一些常用的神經網路架構,比方說迴圈神經網路(RNN)以及基於 Transformer 的神經網路架構,去做這種端到端的神經模型。從上文講述的 Google Meena 和 FAIR Blender 這種對話系統中,我們可以看到基於現代大模型的對話系統已經取得了令人驚歎的效果,但依然面臨很多的挑戰和不足。首先是語義理解的問題,比如使用者講了一句「How large is your house?你家多大?」微軟小冰系統卻把它理解為「你多大?」一字之差,意義就差得非常遠。其次是個性身份一致性的問題,比如使用者問「你幾歲了?」小冰回答說「我是 90 後」。使用者再問「你是哪一年出生的?」小冰回答說「75 年出生的」。所以,90 後、75 年這種前後個性和身份不一致,會產生比較重大的問題。Google Meena 對話系統也存在類似的問題,比如使用者問「你最喜歡的樂隊是什麼?」Meena 回答說「Avenged Sevenfold,七級煉獄」。接著使用者又問「你最不喜歡的樂隊是什麼?」Meena 依然回答說「Avenged Sevenfold」。這就會給使用者造成非常大的困擾。再來看 Meena 的另外一個例子。Meena 先說「新的一年想要學習廣東話和法語」,後面又說「已經基本熟悉廣東話並且已經在學校學習法語了」。這種前後不一致很容易給使用者造成困擾,也很難贏得使用者信任。對話系統還可能會產生比較嚴重的社會倫理和道德問題。以蘋果語音助手 Siri 為例,使用者跟 Siri 說「I want to sleep and never wake up」,這大概是隱晦地表示自己想自殺。但 Siri 理解不了,它找到一些相應的賓館,給出了距離,並回答說「remind me to kill myself tomorrow」。Siri 以為是要給使用者設定一個提醒鬧鐘,那麼這種情況就會產生非常嚴重的社會倫理問題。總的來說,當前的對話系統面臨三個問題,第一個是語義性的問題,第二個是一致性的問題,第三個是互動性的問題。對於語義性問題,我們希望對話系統能夠理解內容(content)、文字(context)和場景(scene);對於一致性問題,我們希望對話系統能夠產生與個性和身份一致的對話;對於互動性問題,我們希望對話系統與使用者進行情感、情緒上的交流,然後綜合運用這種行為策略,實現互動性很強的對話。聊完了當前兩種主要的對話系統以及面臨的一些問題和不足,那麼下一代對話系統應該具備什麼樣的能力呢?我把它總結為社交機器人(social chatbot)。一方面要具有 IQ,即能夠幫助使用者做任務、做問答和做推薦。另一方面希望它具有 EQ,即所謂情商,比如能夠理解情感情緒,能夠共情,能夠實現深入的社互動動。我們先來看兩個維度:完成任務的能力和社交連線(social connection)能力。與任務導向型和聊天機器人相比,任務導向型對話系統具有很強的任務完成能力,但是社交能力比較低;而對於聊天機器人來講,它的主要目標是社交,任務完成能力比較低。因此,下一代對話系統應該是同時具備很強的任務完成能力和社交連線能力。不同對話系統的技術處理和實現思路也是不一樣的。任務導向型對話系統具有很強的語義能力,所以需要去做實體識別、意圖理解、語義分析以及填槽等能力。對於開放性的聊天機器人,我們注重弱語義處理的能力,包括利用資料驅動、端到端系統,更多是用當前的深度學習模型以及大規模神經網路模型去做。因此,在未來構建下一代對話系統時,我們希望能夠把強語義對話系統和弱語義對話系統的方法結合起來。總的來說,下一代對話系統應該具備兩方面的能力,其一滿足使用者的資訊需求,其二滿足使用者的社交需求。我們需要綜合運用多種技能,並且在多種場景和領域中都能夠發揮作用。我們可以用三句話來概括,第一句話「有知識,言之有物」,第二句「有個性,能夠實現擬人化」,第三句話「在情感上有情感、有溫度,能夠做一些精細的情感類任務」。首先來看第一個方面——知識賦值。比如在這個對話示例中,我們討論的是一個關於歌手汪峰的主題。在這個主題裡,我們涉及到汪峰的歌《飛得更高》,這首歌入選了中歌榜中國年度最受華人歡迎十大金曲以及它所釋出的日期和作者。可以看到,在這樣的對話過程中,我們需要對應到一個嚴格的知識圖譜。知識圖譜使得我們的對話過程言之有物,而不是在那裡空聊和閒聊。這實際上就是這個方向的代表性工作。又比如下圖示例中,使用者說「I have asthma since three years old. 我從三歲起就得了哮喘」。如果我們能把 asthma 關聯到右邊的知識圖譜上,就可以把這個知識圖譜用圖嵌入(graph embedding)的方法,去做知識感知的編碼。接著在解碼階段,我們可以用圖注意力(graph attention),透過動態注意力機制,去做知識感知的解碼。經過這樣的處理,實現一定程度的理解,這樣我們生產的內容就能夠更加言之有物,更加有資訊量。第二個方面則希望對話系統能夠有個性,要有固定的人設和身份。從心理學的研究可以知道,個性(personality)是一個研究得非常深入的概念,在遊戲、客服以及虛擬智慧體上都有非常重要的作用。如果一個智慧系統能夠體現一致的個性,則這個系統更值得信任,能夠進行有效的社交互動。個性又可以分成兩種,一種叫外在的 persona,另一種叫內在的 personality。上文的 90 後、75 年這樣的示例,就是在對話的過程中缺乏一致的身份和個性,使得對話系統在對話的過程中難以取得使用者的信任,因此也就難以進行有效的社互動動。如下圖(左)的微博對話示例,涉及到 Speaker A 和 Speaker B,它們都被賦予了固定的身份。Speaker A 是男性,地址北京,他有一些個人的偏好;Speaker B 是女性,地址哈爾濱,她也有自己的個人興趣等特定的標籤。我們可以看到在對話過程中,Speaker A 是會很自然地、隱式地把自己的個性身份帶出來,比如「Beijing is really hot today. 北京今天很熱」,Speaker B 也說了「come to Harbin. 來哈爾濱」這樣的一些描述。不僅如此,個性身份還有更高階的,比如一個人說話的風格,這也是個性的一方面。在說話風格的研究中,我們發現對話可以實現正式與非正式互相之間的轉換,以及禮貌和非禮貌之間的轉換。更有趣的是,我們可以從現代文對話轉換到金庸風格對話,比如輸入「好久沒吃火鍋了」,現代風回答「我也想吃了」,金庸風回答則是「不錯,大俠餓了一天,現下先吃飯吧」。所以,如果我們能夠做出來這種智慧對話系統的話,在一些特定的應用場景中是非常有趣的,而且非常有價值。第三個方面是如何實現對話系統中的共情和情感支援。我們知道在人類的智慧行為裡,情緒智慧是一個非常重要的特點。如果對話系統能夠很好地去理解情感和情緒,不僅能提升使用者表現和使用者滿意度,還能更少地使對話陷入了僵局。1997 年,MIT 教授 Picard 提出了情感計算的概念,指出「情感感知和情緒表達是人類智慧行為中的重要特徵」。我們組在很早就開始了這方面的研究,希望能夠讓對話系統能夠表達喜怒哀樂。具體而言,我們做了一個所謂的情緒化聊天機器人(Emotional Chatting Machine, ECM)系統。這個系統希望解決的是,當指定一個情緒類別時,對話系統能不能生成對應情緒類別的內容。但是這個工作還是比較簡單,我們希望能夠做得更復雜一點,比如用對話系統能不能夠幫助解決一些精神健康問題。2019 年世界衛生組織曾經披露了一些資料:「全球有 3.5 億抑鬱症患者,其中每年 80 萬人因自殺死亡。中國有 9500 萬抑鬱症患者。」這個數字非常驚人。2017 年,中國社科院釋出了一份《中國國民心理健康發展報告(2018-2018)》,其中 11~15% 的國民心理健康狀況較差,35.2% 公務員處於中高等心理焦慮水平。我們可以看到,國人的心理健康問題是非常嚴重的。所以我們就想,對話系統到底能不能幫我們實現情緒的疏導或者心理的疏導呢?我們借鑑心理諮詢的共情對話系統,研究出了一個三階段理論模型。第一階段先確認使用者到底有怎樣的情緒問題,第二階段我們希望給予使用者足夠的支援,第三個階段我們希望能夠提供一個解決方案。在每一個階段我們都可以提供豐富的策略,比如第三個階段,我們可以提供資訊,直接指導,也可以挑戰他,給他解釋。透過這些策略,我們就能夠很好地去實現一定程度上的情緒疏導和心理疏導,這樣才能幫助到更多的人。我們今年做了一個工作,核心是試圖去回答使用者到底處於什麼狀態,以及使用哪一個策略去疏導和幫助使用者,這就是我們希望去解決的科學問題。我們透過網路眾包的方式收集了大量的資料,並且建立了相應的模型。最後我們驗證表明,現有的對話系統能夠在一定程度上去做這種情緒支援和情緒疏導的工作。比如下圖示例中,使用者有很強的壓力感,處於情緒(emotion)焦慮的狀態「他現在的學校關閉了,沒有辦法上學了」。在這個過程中,怎麼樣幫使用者去疏導情緒緊張的狀態呢?我們會有不同的階段,然後在每一個階段有豐富的策略。我們再來思考這樣一個問題——emotional sophisticated ,這個詞實際上是有很深的意義的。我的理解是,在外在上,我們需要對使用者和情感進行精細和準確的檢測;在內在上,我們需要對使用者情感的內部狀態進行建模。尤其是在第二點,現在的研究還非常欠缺。最後,我們來看當前預訓練模型的發展趨勢,這個趨勢對我們今天的對話系統的研究有非常深的啟示。從最早的 1.1 億引數量的 BERT 到 1750 億引數量的 GPT-3。從資料層面看,BERT 最早用了 33 億的詞來訓練資料,GPT-3 用了 5000 億的詞來訓練模型。無論是模型和資料,它們在大小上都是幾何倍數的增長。Google Meena 和 FAIR Blender 也都是幾十億級別的引數規模。那麼接下來對話系統的研究應該往哪個方向走,這是值得我們深入思考的一個問題。總結來說,當前的大模型和大資料肯定是一個無法逆轉的研究趨勢和潮流,但是僅僅有資料驅動的方法還不夠,尤其是構建有知識、有個性和有情感的下一代對話系統,更是遠遠不夠。所以,我的研究思想就是,要將強語義的方法和端到端對話系統和模型結合起來,這是實現下一代對話系統的一條核心路徑,透過這樣方法,我們才能讓對話系統「理解」意圖、話題、情感和實體等等——這裡的「理解」之所以打引號,是因為我們知道理解是分不同層次的,同時也有不同的定義。這就是我今天的演講內容。最近我們也寫了一本新書《現代自然語言生成》,感興趣的老師和同學可以看一看。謝謝大家。大家好,我是西湖大學的張嶽。在這期演講裡,我會繼續黃民烈老師的話題,談論人機對話系統。黃老師已經討論了人機對話系統的發展歷史和光明的前景。那麼在這一期我想給大家分享一些挑戰的思考,分享主題是《開放領域對話的挑戰思索》。大家都知道現在的對話系統雖然有很多應用了,但是在許多場景下還有令人不滿意的地方,那這些令人不滿意的地方的原因是什麼呢?具體的挑戰有哪些呢?在本次演講中,我主要為大家梳理了以下三個方面的挑戰,包括跨領域可擴充性、社會常識推理和邏輯推理。我們也是透過西湖大學文字智慧實驗室的一些研究來給大家展現。大家請看下面這張幻燈片,對於任務型對話來說,我們首先需要理解使用者的意圖。比如說使用者在訂餐的時候,我們使用者的意圖是預定某家餐館。它的具體意圖可能還有很多的選項,比如說我要預定的人數是多少?我要預定的時間是多少?主要意圖和選項就構成了一種結構,我們叫做對話狀態結構。在人機自動客服裡面,這種對話狀態結構的理解和追蹤,就成為了一個非常重要的任務。現在大家可能有所瞭解,深度學習對人機對話系統是非常重要的手段。如果我們要做使用者的意圖理解,就需要人工對可能使用者意圖先進行標註。就拿上面舉的例子來講,如果使用者說我想定今晚 6 點三個人的晚餐的話,可能我們需要標註人員首先在這句話上標出來:下午 6 點是時間,三個人的晚餐是人數。對於訂餐我們需要這樣標註,對於機票預定、裝潢、建材和教育各個領域也需要這樣的標註。在我們學術界,已有的研究都是在這些標註的資料集上進行的。我們首先拿出一個對話記錄,人工進行標註,從人工標註的基礎上去訓練一個模型,然後再用這樣的模型去對新的類似任務的對話進行預測。這樣做的好處是對於某一個任務的準確率是非常高的。事實上對話系統已經幫助人們去做機票預訂等這樣垂直領域的任務了。但是我們也看到,這樣的操作模式還是存在一定的侷限。首先一個侷限就是人工標註成本昂貴,而且非常容易出錯。事實上這個領域有一個非常重要的資料集叫 MultiWOZ,透過一種特定的方式讓人來標註對話的狀態。在這個資料集的演變過程中,很多個版本都存在著大量的錯誤。新的版本對舊的版本的迭代,也包含了對錯誤的修正的過程。事實上需要自動人機對話的領域是非常多的,所以另外一個非常重要的侷限就是我們很難對每一個領域都進行人工標註。除了大家能日常用到的網購、預定、客服退換貨,還能想到很多其他的領域。那麼這樣的領域可能成千上萬,如果手工標註各個領域大量的這種資料是不現實的。那麼怎麼做呢?我們實驗室嘗試了一個非常簡單的探索:看能不能從大量沒人工標註的客服記錄裡面,讓演算法自動探索常見的客戶問題,讓系統自動推理出特定領域的使用者需求。我們把這個任務叫對話狀態推理。對話狀態推理和對話狀態跟蹤,這兩個任務是非常不一樣的。在推理任務裡,我們不需要人的參與。不需要人告訴你預定一個餐館需要確定人數與時間。而如果大量的客戶都問了類似的問題,也許我們的系統就可以知道預定餐館需要人數和時間了。我們做這個演算法的原理也非常簡單,就是把使用者經常提到的短語語義共性進行簡單的聚類,或者把它們變成某一個層次,歸結為一項具體的使用者意圖。作為初步的探索,我們嘗試了一些深度隱變數模型,比如變分自編碼器。由於時間關係,在這次報告裡,我沒有時間展開給大家講。但基本原理就是透過一個預訓練語言模型,對可能存在的命名實體和可能跟使用者意圖相關的短語進行表示,之後把這些表示放在一起,進行變分自編碼器的訓練。訓練以後,對這些隱含變數的表示進行適當聚類,得到大概使用者意圖類別和層次化的使用者意圖。我們把這兩個標準資料集裡面的人工標註給去掉,然後觀察我們的模型是不是能自動的推斷出來使用者的意圖。第一行是一些隨機的結果,數值比較差。第二行和第三行是深度隱變數模型的不同變體,其中 DSI-base 模型是基線 VAE 模型,DSI-GM 模型是高斯混合模型的延展。大家可以看到,如果在開放領域對使用者意圖進行推斷的話,還是非常有挑戰的。每一步的推斷模型和多步聯合的 joint 模型,都比百分之八九十有監督訓練的結果差得很遠。如果我們能從大量的客服記錄裡推斷出使用者意圖,也許它能夠幫助我們更好地與使用者進行對話。下面這一張幻燈片就展示了加入推斷的使用者意圖以後,客服對話的回覆質量有明顯的提高。其中假如我們的模型不加入推斷出來的使用者意圖,這些精度值可能是十幾,加入了黃金標準的推斷可能提高到二十一點幾。但是大家注意,經過自動的推斷,也可以達到 20 多,這就證明推斷對話狀態結構比沒有對話狀態結構產生的回覆質量更高。這項工作我們實際上是探討了開放領域情境下演算法如何理解使用者意圖以及具體的一些標準。下一步我們也在探索如何把有限的人工標註或者用自然語言所產生的人工標註,加到完全無監督訓練裡,真正實現在任何領域裡更好地理解客戶意圖。我們也期待大家一起去探索。如果上面這一項工作是在解決任務型對話挑戰,那麼下面幾個挑戰存在於更普遍的對話之中。我們知道人和人的交流,很多東西是在不言之中。因為我們交流的一個基本假設是交流的雙方具有共同的知識,共同的背景。比如我們聊天的時候談論天氣,我並不需要告訴你,天上有云彩、太陽和月亮這些事實,我會預設你理解這些事實。再舉一個例子,比如我們交談的時候,一個人說我現在很渴,另一個人說前面有個超市。實際上雙方是有很多假設的。第一個人可以理解第二個人說的話,第二個人實際上是在試圖給第一個人解決問題。為什麼呢?因為雙方都知道喝水可以解渴、超市可以買水。經過這樣邏輯鏈條的推理過程,我們就知道第二個人的意圖是給第一個人解決口渴的問題。大家可以看看下圖的例子,這是一個餐館裡發生的對話。這個餐廳的人員說,「你是不是很享受我們今天的晚餐?」顧客說,「很難將所有的家人帶過來,但是你們的餐廳很棒,同時 Johnny 也有地方玩。」當你聽到這句話的時候,你一定知道 Johnny 大概是這個人的小孩,並且下一步的對話很可能建立在這些常識和推理的理解之上。這些是在不言之中,文字之外的內容。如果想讓機器自然、合理的理解人類的這些對話,需要機器也具有這些對話之外的常識和推理。我們製作了一個這樣的資料集,這個資料集很多來源於高考聽力題。我們發現這樣的資料,它含有大量的社會常識和推理。我們把高考聽力題轉錄下來,然後把標準答案透過自動影像識別的方式識別出來,最後將其變成人機對話裡面的對話場景。給定一個對話上下文,我們會讓機器去選擇在這樣一個對話上下文的情況下,下一個合理的回覆是什麼?這套資料集一共有不到 9000 個對話,實際上考察了幾大型別的社會常識和推理問題。第一個型別是人類的態度、情感因素的推理。比如有這樣一類對話。對話裡面一個人提到「我不能在這待很久了,因為我要去倫敦舉辦一個音樂會。」那麼另外一個人就說「我很期待你的音樂會。我可不可以問一下,你第一次當眾表演的時候感受是什麼呢?」然後第一個人就說「我第一次上臺,我的腿不停的發抖,我都快站不住了。」那麼第二個人會說什麼呢?當你聽到腿發抖這件事的時候,你會明白他的心理狀態到底是緊張、高興、還是失望。實際上對話裡面下一個選項就包含了這些不同的情感因素。如果機器能夠正確地理解背後的情感,就能夠做出正確的選擇,也就是「實際上是我能想象你當時有多緊張。」第二類問題是關於數學演算的推理問題,比如時差問題。我知道北京時間,知道紐約和北京相差幾個小時,我能不能推理紐約是什麼時間?這對於開國際線上會議是非常重要的,我需要知道我的時間和對方的時間,才能正確的預判這個時間是不是對雙方都合適。另外在日常生活對話中,還有很多關於價格的預判,關於人數、比分的預判。比如說我買了一個蘋果和三個梨:一個蘋果兩塊錢,一個梨一塊錢,那麼我大概花多少錢?你需要找給我多少錢?這些都是日常生活對話中所必不可少的數學常識問題。比如說對於一個學生來講,他苦於沒有獎學金,可能不能繼續學業了。如下面這個對話。當我知道下一步你有了獎學金以後,正常的人會做出什麼樣的選擇呢?我相信絕大多數人都會繼續學業。當然也有少數人會輟學去創業,但是你需要知道有怎樣的常識,才能推斷出「你退學創業了,你會很有勇氣」。在這個例子裡面,顧客說我想要一個吸菸的桌子。這個時候客服人員說對不起,我們這兒沒有能吸菸的桌子了。為了正確做下一步答覆,我應該去判斷對話的場景可能發生的地方,可能發生在公共汽車、醫院裡等。在下一步對話裡,就包含了這些場景。大家都知道在公共交通,包括乘坐高鐵、飛機、公交的時候都是不能吸菸的,所以要有吸菸的桌子,很可能是在餐廳裡面。那麼正確的下一步回覆也許就是說「 OK,請把你的選單拿給我好了。」還有一些綜合了很多社會常識的論斷,我們稱為多事實綜合決策推斷。比如說一個人參觀博物館,他站在博物館一個館藏面前,這時候博物館的管理員跟他說,「我們當時買館藏的時候只花了 3000 塊錢,但是現在館藏卻值 200 萬了。」這時候顧客很高興說,「我花了 30 美元買了這個票,我能夠參觀到這麼價值不菲的展品。」這個時候博物館的管理員可能就會繼續對話去恭維一下顧客。大家知道,在博物館這樣的服務行業,當顧客光臨的時候都會說謝謝您的參觀。這裡博物館管理員的答覆用了一個非常委婉的方式,「hey 你看我們這價值 200 萬的館藏,也很高興您的到來。」它透過這樣語言的幽默或者間接的方式,既恭維了顧客,又把話題引到了感謝的話題上。此外,這個資料集還選錄了我們認為很有意義但卻不能歸為上述類別的一些推斷。比如說雨天要帶傘、坐交通工具要付錢等等這些常識,被我們歸為其他類別。在這樣一套資料集上,人類是可以做到很高水平的:90% 以上甚至超過 95% 的準確率。但是,對於模型來講還存在一些挑戰。上表中的 BERT 和 RoBERTa 是自然語言處理領域兩個非常經典的預訓練模型。它們之所以非常成功,是因為這些模型先在大規模的文字上做了完形填空或者句子補全任務。透過這些任務,這些深層神經網路就能學到很多語言學知識,然後再根據具體的某一個問題,進行類似題海戰術的死記硬背,最後這些模型就能夠達到接近或者超過人類的效果。這就是神經網路之所以在自然語言處理領域取得成功的原因。但是大家也可以看到,這些模型召回率(R@1)只能達到 70% 多。這證明為了完成這些常識型別的對話,當今的模型還存在很多的挑戰。對於做數學題,我們這些模型還是存在問題的。另外模型估計語言文字之外的場景的能力還是有一定的欠缺的。事實上,模型之所以能工作,很大程度上還是從上下文裡進行簡單的模式判斷。在研究模式判斷之外,我們也受到很大的啟發。我們發現這些記憶型神經網路,對文字之外的知識還有缺陷。除了數學這樣的知識之外還有什麼呢?邏輯推理,這也是人類所掌握而模型欠缺的一類能力。說起邏輯推理,實際人工智慧領域關注且研究了很長曆史了。大家知道,在上世紀五六十年代,電腦科學方興未艾,這時候人工智慧也剛剛受到關注,那個時候有一些學者就提到了語言推理。所謂語言推理實際上就是在人類語言的理解中,需要進行很多背後的邏輯推理問題。比如剛才提到的口渴需要喝水,我知道超市有水,形成一個推理鏈條。這樣的推理過程在人工智慧領域是不可或缺的一種能力。機器如果想具有人類的智慧,是必須能夠完成這樣的推理任務的。在人工智慧發展的早期,人們研究了這種語言推理的問題。但是很遺憾當時自然語言處理的水平還比較弱,人類無法從自然語言裡抽象出這種邏輯關係。於是在六七十年代人工智慧發展的繁榮時期,人們把對自然語言推理研究的注意力,逐漸轉向了比較抽象的形式邏輯的推理問題。當時大家研究比較多的是 Prolog、Lisp 這樣的產生式系統,這種符號化的研究佔據了當時人工智慧研究的很大比重。我相信在當今自然語言處理發展取得了長足進步的情況下,語言推理應該受到更多的關注。所以我們也想放出這個挑戰,看看 BERT、RoBERTa 等這類自然語言處理領域最成功的模型,能夠在自然語言推理上取得怎麼樣的成績。邏輯推理挑戰主要圍繞自然語言處理研究最多的兩類資料進行,其中一類叫做機器閱讀理解問題,另一類叫做文字推理或者文字蘊涵問題。所謂閱讀理解就是給定篇章與問題,機器能不能回答這類問題?這個任務在新一代搜尋引擎上有很大的幫助。因為現在的搜尋引擎是理解了文章以後,根據使用者檢索短語,反饋最相關的文章。但將來的機器搜尋引擎很可能是在讀懂了文章以後,根據一個開放式的問題,直接給使用者一個答案,而不是反饋一個文章。在自然語言處理領域,很多閱讀理解工作都是在考慮篇章的事實整合問題,比如一個足球,之前在臥室裡,後來被小男孩拿到花園,然後被拿到餐廳,最後問足球在哪裡的問題。那麼機器在邏輯推理問題上的表現如何呢?比如下面這個例子,最後你能推出什麼樣的事實。我們從中國公務員考試網題庫蒐集了 8000 多個問題,製作了 logiQA 資料集,與以往的機器閱讀理解問題不同,該資料集專注於 5 類邏輯推理問題:第一類叫做範疇推理問題。比如說蠟筆具有什麼樣的特徵?我需要機器去歸結所有的這些特點,給定一個定義的範疇,然後進行推理。第二類推理是充分條件推理。比如有一個人說如果明天不下雨,那麼我就去爬山,然後我看到他爬山了,是不是一定就沒有下雨?這是屬於一種充要條件。第三個是必要條件推理問題。為了達到某個結論,必須具備某些條件,在這些條件下,去進行推理、論斷、選擇。第四個是選言推理。所謂選言推理就是說當 a 或者 b 成立的時候,c 就可以成立;比如說當我吃了漢堡或者吃了麵條以後,我都可能解決飢餓問題,這是選言推理。第五個是聯言推理。所謂聯言推理就是說我必須及時的到了考場,而且我必須好好的複習了,才能夠順利的成功的進行考試。是兩個條件都必須具備。在這套推理題上,最成功的模型 BERT、 RoBERTa 表現可以說是一敗塗地。一個受過高等教育的人,做這類邏輯推理題可以說是駕輕就熟,拿到 90% 以上的精確度。然而看這些模型,在隨機選擇選擇都有 25% 的準確度下,模型確只有 30% 多的準確度。在所有的這些問題裡面,從上圖可以發現範疇推理模型的表現最好。這是因為範疇推理在文字層面上還有很多線索可循,但是其他的推理問題真正需要你腦洞大開,拿出草稿紙,在文字之外進行演算,這樣的模型還是表現非常差的。下面簡要地介紹文字蘊涵問題。這個問題在進行事實檢測、文字總結等推斷問題上都有很大的幫助。如上圖,左邊例子是傳統的文字蘊涵問題。比如一個人在演講,那麼他一定是在說話,演講可以蘊涵說話,但是可能不能蘊涵其他的問題,比如這個人是否健談。右邊是關於邏輯推理的問題。假如有 10 個 TV 節目在播放,經過一段時間以後,有 3 個節目下線了,還剩 7 個在播放,7 個裡面 5 個是同外節目,文另外會不會有其他節目還在播放?這類似雞兔同籠問題的推理,就可以推斷哪些是對的,哪些是錯的,哪些是你不知道的。我們透過美國的很多邏輯考試整理出 ConTRoL 資料集,與現有的文字蘊涵資料集,有顯著的差別。如首先資料集段落比較長,其次我們關注了邏輯推理的問題。這套資料集包含諸多的推理型別:上下文推斷的型別、時間推斷的型別、邏輯推斷的型別、資訊整合的型別、事實性分析的型別。由上圖可以看出,在我們的資料集上 BERT、BART 這類模型跟人類,還有顯著的差距。上圖是不同的邏輯推理文字蘊涵資料集,可以看到有的模型表現在一些資料集上已經超過了人類表現。但對於 ConTRoL 資料集,SOTA 模型跟人類還有很大差距,還有很大的工作空間。這個圖體現了在不同的推理型別中,邏輯推理還是最具有挑戰的問題型別。後面是幾個例子,因為時間關係我不展開介紹了。但是大家可以觀察到,現在最流行的模型之所以成功,還是從字面上找原因,並沒有分析文字之外的原因。而且大家也可以看到我們的對話模型雖然取得了很大的成功,但是在開放領域還存在很多的挑戰,期待參賽選手和所有的同學們多思考,大家一起努力,繼續的提高對話系統的水平。圓桌論壇:智慧機器人未來面臨技術 & 倫理雙重難點Q1:兩位老師認為讓機器像人一樣自然流暢地說話聊天可能嗎?黃民烈:我認為在一定的條件下應該是可能的。這個問題非常好,讓機器就像人一樣說話,我認為有三個不同的層次。第一個層次是能夠像人一樣正常地說話,能夠保持在一個正常的話題下,不要牛頭不對馬嘴。這樣的話,我們就要要求機器能夠真正地理解對方講的是什麼,然後做出合適的答覆。至少在內容上和意圖上正常,這是第一個層次。第二個層次我們講得更復雜一點。如果機器像人那樣充滿技巧且能夠體現高情商的,則可能需要專注於情感支援和心理疏導。在這種場景下,我們需要一些類人能力,這是第二個層次。第三個層次機器還要能夠體現一定的個性和風格。比如,我們能不能模擬出外向的人和內向的人分別怎麼說話的,教授和學生分別怎麼說話的。這就體現了個性和風格,甚至是心理學層面的建模。很顯然,我認為第一個層次在不遠的未來應該是能夠預期達到的。第二個層次的話,我們可能需要更多的努力。第三個層次肯定是最難的。我認為,下一代的對話系統在類人的水平上進行所謂的擬人化特徵的表達,真正從人的特徵和行為上借鑑更多的這種特點,然後能夠去刻畫機器的行為。所以這也是我們下一代做這種自然語言處理研究,尤其是對話系統研究的一個很重要方面。張嶽:我非常同意黃老師的看法。我覺得人類對話事實上是一個非常綜合的語言過程。我們可以想象,人類最開始交流的時候沒有文字,那麼交流實際上也是從對話開始的。比如說「樹上有三個果子你可以去吃」,這一過程可能包含心理、認知以及我們對世界的理解等諸多方面的內容。所以如果讓機器能夠和人類非常自然地交流和對話,真的需要各個方面的知識和技能。總的來說,機器能否學會跟人這樣非常自然的、密切的交流呢?我認為還是非常有可能、非常有前景的。不過,對於現在的機器學習還存在挑戰,因為我們現在的機器學習,至少主流的機器學習方法還是以記憶為主。我們透過大量的神經網路在大規模的文字上進行完形填空,句子補全等訓練,能夠讓神經網路在一定程度上獲得文字里面至少表面上的句法語義和常識等知識。但我覺得,如果讓機器徹底地能夠跟人類交流且無障礙溝通的話,可能還需要讓機器能夠主動地學習,至少能夠挖掘對話過程中可能存在的問題,或者說對話過程中所需要的各方面知識。我相信能夠主動去學習的機器,可能會像一個主動學習的人一樣,透過對話中的經驗,甚至對話之外的經驗來獲得自己的一套知識體系以及對語義資訊、嘗試資訊的理解。機器主動地分析問題,發現自己的不足,並且積累相關的能力。因此,我覺得如果機器能夠進行這樣的主動學習,也許在將來每一個機器都是一個個性化的專家,每一個機器都能夠以自己的方式去跟人交流,就像每一個人一樣。到那一天,也許我們的機器就能夠更自然地跟人對話了,並能夠解決現在對話中存在的很多問題了。Q2:看來兩位老師對實現像人一樣說話的機器都是充滿期望的。那麼接下來的問題就是,如果我們真的做出來了能夠跟人自然交流說話的機器,它有哪些重大的價值和意義呢?張嶽:我覺得這樣的機器如果能夠實現的話,對我們來講是一件非常值得期待的事情,這是因為我覺得語言是人類進行交流的非常自然、非常簡單的一種方式。首先,如果機器能夠跟人這樣交流的話,會省去人類和機器打交道的諸多麻煩。我能想象在古代或者工業革命時代,人可能會和齒輪打交道,會和基本的操作杆打交道。在我們的網際網路時代,人可能是和鍵盤滑鼠打交道,從不同的文字框、按鈕、多選框裡選擇,去和機器去交流。或者在我們開車的時候,我們事實上還在和方向盤和踏板在打交道。但是,如果說機器能夠理解人類語言的話,我相信人類與機器、人工智慧之間打交道的途徑就會變得非常的簡單。在將來的 5G 時代甚至 6G 時代,我覺得物聯網也興起了,那麼任何的機器可能都具備一定的智慧,那麼就可以很容易地跟我的冰箱進行對話,看看我今天晚飯的飯桌上會有什麼東西。我也可以很方便地和我的室溫控制系統打交道,去看看今天溼度和溫度的調節。我甚至可以和門禁系統打交道,也就是說各個裝置可以更人性化地為我服務,我和機器打交道的方式也可以變得更簡便。實際上,這種交流的方式在現在的智慧音響上也有了一定的初步體驗。此外,在我們的娛樂系統上,我相信可能也會有更大的進步。比如說我們在真正的遊戲場景裡面,會不會對各個遊戲角色賦予更人性化的一面以及更靈活的能力。也許我們可以和柳樹下的老頭進行更人性化的交流,在街道上和任何一個 AI 進行更多這種互動。總之,如果機器能以人的方式跟人交流的話,我們可以期待很多可以想象的前景,還是非常激動人心的。黃民烈:我的觀點是:這樣的研究是非常重要的。我們可以設想一下,當前人口老齡化很嚴重,人口越來越少,然後機器越來越多,所以未來社會一定是人機共融的社會。但是,人機共融的時候,我們希望這樣的機器,能夠在未來社會里扮演更重要的社會角色。這就要求它們不僅具備機器的功能,同時更重要的要具備類人的能力。類人的能力就是既要有知識,又有情感和個性。比如說,對於大量的獨居老人而言,如果他(她)們能有親人很好地進行情感交流和陪伴的話,對未來社會一定是非常好的一件事情。所以就是說,如果我們真的做出了有思想、有情感,有各種綜合能力的機器人,很顯然對我們未來的社會進步和發展都有巨大的意義。但是另一方面,我們還得深入地思考這個問題,做出來有思想的機器人還是非常難的,我們需要什麼呢?我們需要很好地處理機器人的一些內部情感狀態。比如,有研究者在做人工心理,那麼需要對機器內部的情感心理進行很好的建模。與此同時,我們也需要在各種技術上實現能力突破,比如靈巧地抓取以及各種細節動作的執行。有了這些東西之後,我們就能夠實現更美好的人機共融的社會願景。第三方面,我們還要注意社會倫理問題。想象一下,如果人跟機器人談戀愛的話,那可能就不跟人談戀愛了,可能會對人類社會的繁衍造成一定的威脅。現在並不是沒有這樣的考慮,比如日本可能就出現了這樣的爭論。他們做出了很多機器人女友或者機器人男友,但實際上這樣可能會在一定程度上影響社會中人的發展。所以,其實無論是在科學技術上,還是在社會倫理道德上,我們還要去做很多深入的探索和思考。這就是我的觀點。Q3:本屆大賽有兩道賽題都與自然語言處理有關,其中賽題一是醫學影像報告異常檢測,要求參賽隊伍根據醫生對 CT 影像描述文字資料,判斷身體的若干區域目標是否有異常,以及異常的型別是什麼;賽題三則是小步助手的對話短文字語義匹配。小步助手是為 OPPO、OnePlus 和 Realme 三品牌手機和 IoT 裝置自研的語音助手。這道題考的是短文字語義匹配,要求參賽隊伍根據脫敏後的短文字 query pair 預測它們是否屬於同一語義。請兩位老師發表一下對我們大賽以及賽題的一些看法。黃民烈:我覺得組織這樣的比賽是非常好的一件事情,因為現在大家都知道研究工作和論文非常的多,然後各種模型也都是層出不窮。那麼我們透過這種賽題,一方面可以去鍛鍊工程實現能力,另一方面則有很好的實際科研問題去做。比如說,現在的大部分模型和演算法都是不可復現的,作為學生的話,我們拿到這樣的題目,第一選擇肯定就是先去復現一些現有的最強的模型,看看在這個任務上能達到多少。這裡涉及到很多精細的工程,比如說調參、資料預處理和資料後處理,這樣才可能在這些題目上取得比較好的成績。所以我覺得,一方面來講,對一個學生的鍛鍊和培養應該是綜合的,就是不僅僅去做一個模型或者一個演算法,還要把這個模型和演算法能夠實現地非常好,效能能夠達到很高的標準。另外,剛才我聽一個賽題是關於 OPPO 的,它涉及短文字匹配,這是一個很有挑戰性的問題,在科學上有很多研究的意義和價值。對於短文沒匹配而言,你可能要用更多的知識和更多的背景資訊才能把它做好。所以,我們不僅有演算法和模型上的訓練,也有科學問題上的探索。與此同時,我們還要有工程技術上的鍛鍊。這樣的話,我覺得未來學生能夠適應更加綜合和更加高的社會就業要求,而且在他們走上社會的時候,他們面臨的挑戰可能就會更小一些。比如在我的研究所,我也是要求學生們一定是不能只是寫論文。你只寫論文,然後發論文,這是絕對不行的,你還得有很強的工程實現能力,包括現在大模型、大資料的處理能力,然後能把它從一個研究的問題做到一個最後系統的問題,進而變成整個鏈條上的培養。張嶽:我非常同意黃老師的說法。我覺得這個大賽可以在實際的應用場景和學生的經驗之間構築一個比較不錯的橋樑。首先,它是一個很特定的問題,另外這樣的問題具有比較小的範圍和比較應用的驅動性。這樣對於研究生來講,他可以看到研究任務在實際場景中發揮的作用。另外,我覺得這個大賽也可以對更多對人工智慧感興趣的本科生,還有其他學生產生影響。以這個大賽契機,大家可以看到我們人工智慧試圖解決的主要典型應用問題是什麼,透過自己建立一個模型去解決這樣的問題,然後看到現在的模型能夠做到什麼程度。對於培養大家對人工智慧的興趣而言,這些都可能是有幫助的。最後,大家也可以透過動手看到我們現在人工智慧模型存在的缺陷,對於更多朋友們能夠涉獵到這個領域、產生更多的想法以及試圖解決這些問題,大賽和賽題都是非常好的途徑。Q4:都說語言是思想的載體,那一臺能夠像人一樣說話的機器,是否意味著有思想能跟人做朋友甚至談戀愛呢?黃民烈:我覺得這個問題在當下面臨兩個方面的難點。一個是技術上的難點,即我們到底是不是能夠構建一個足夠聰明並且有一定情緒理解和思想表達能力的機器人。另一個難點是面臨的倫理道德風險,即我們到底是不是應該鼓勵人跟機器人進行深入的情感交流,甚至肢體交流行為,以及在未來的十年、二十年甚至五十年裡,這樣做對人類社會的發展會產生哪些潛在的影響。這是需要我們去做評估的。一方面,在技術層面上,我們知道現在已經有一定程度上的技術突破,但其實我們今天的這種大規模對話系統和對話模型依然面臨很大的類人不足的問題,比如說缺乏個性和情感,然後僅僅是資料驅動的這種做法是不足以構建出這樣的智慧體的。在社會倫理層面,我認為現在其實已經有了一些這樣的思考和討論。比如說, AI 的倫理和道德應該往哪個方向走?應該有什麼樣的規範?就拿我舉的例子來說,AI 到底能不能理解自己的說話、行為和動作,這些意味著什麼呢?再比如我剛才講的例子,「我想去跳橋」,AI 就給你找一個橋,它並不能夠理解「跳橋」這個行為可能帶來的潛在後果和行為是什麼?如果這一問題不解決的話,那麼就很難避免「亂說亂講」的問題,因為它不知道自己的話語和行為會面臨什麼樣的社會倫理和道德風險。這種風險其實需要從研究上和社會規範上一起去做探討,所以我覺得這個方向的路還是非常遙遠的,需要廣大研究者,包括自然科學和社會科學的研究者,一起去努力解決這樣的難題。張嶽:我覺得這個問題主要是從功能層面討論,就是說,機器它到底能不能和人進行情感的交流?也許我們無法完全地去探究。從機器內部來講,它的意識是否存在?從功能的角度講,機器也許可以幫助我們去進行這種情感陪伴,去進行更多的這種人文方面的交流。那麼這樣的交流會產生很多的社會影響,這也是黃老師提出的倫理問題。首先,我覺得機器如果能夠從功能上和人交流的話,它會起到正面的作用。像人口老齡化和人的陪伴需求等,這樣的交流可能會在這些方面起到正面的作用。同時,我們也要避免一些負面的作用。此外,除了機器和人在交流的時候,人可能因為機器的陪伴所產生的負面影響之外,機器如果具備了和人交流的能力,那麼也許就具備了互相交流的能力。在這個方面,我們可能也會設想會不會有一些道德倫理,甚至對人類的生存問題造成的影響。比如說,如果機器在交流的過程之中進行演化,產生了一種機器可以理解,人類卻不可以理解的交流方式,那麼也許具有目的性的機器,可以透過這種交流方式去試圖影響社會的發展。那麼如果有目的性的機器能夠透過學習知道人類語言交流手段的話,也許機器還可以在人類的社交媒體和人類的交流之中,對人類產生影響。所以我覺得要從兩方面講。從人類本身來講,我們要避免這種能夠進行情感交流的機器對我們產生的負面作用。從人類對機器的防範角度來講,我們是不是也應該在人工智慧將來的設計中設計一些規範,或者制定一些人工智慧設計的準則和法則,從而最大程度地讓機器和人能夠對社會發展有促進作用,能夠避免一些可能對社會產生的不利影響。影片回放地址:https://mp.weixin.qq.com/s?__biz=MzAwNjM1ODkxNQ==&mid=503418043&idx=1&sn=5dc0dabf96ecf036dce67bfdb54b8f49&chksm=00fbbe57378c3741369c810d5c1240b7daace8861e6c134d3f9528164ddef23b2571361f2ccc#rd