微軟研究院開源DialoGPT：你有什麼夢想？「讓世界充滿機器人」

dicksonjyl560101發表於2019-11-22

原文網址 : http://blog.itpub.net/29829936/viewspace-2665331/

2019-11-20 12:50:27

機器之心釋出
作者：Yizhe Zhang, Siqi Sun, Michel Galley等

自然語言對話生成是人工智慧社群面臨的一大難題，微軟研究院的一項新研究讓我們離解決這一難題又更近了一步。他們用 GPT-2 模型——DialoGPT，在大規模 reddit 資料上預訓練了一個對話系統，在多個對話資料集上取得了最佳結果。並且經過人類裁判的評測，在非互動的圖靈測試條件下，系統可以生成接近人類水平的對話。

利用微軟 DialoGPT 生成的對話結果示例。

DialoGPT 是一種用於對話響應生成的可調節式千兆詞級神經網路模型，其訓練基於 Reddit 資料。該研究成果的原始碼已經開源，另外他們也釋出了一個大規模預訓練模型。

論文：https://arxiv.org/abs/1911.00536

專案：https://www.microsoft.com/en-us/research/project/large-scale-pretraining-for-response-generation/

程式碼：https://github.com/microsoft/DialoGPT

近來，使用基於 transformer 的架構進行大規模預訓練方面進展頗豐（Radford et al., 2018; Devlin et al., 2019; Raffel et al., 2019），這些進展也在實踐中取得了巨大的成功。舉個例子，OpenAI 的 GPT-2（Radford et al., 2018）表明在大型資料集上訓練的 transformer 模型能夠捕獲文字資料中的長程依賴性，進而生成流暢、詞法多樣以及內容豐富的文字。這樣的模型有能力習得細粒度的文字資料，並得到能近似模仿人類所寫的真實世界文字的高解析度輸出。

DialoGPT 是對 GPT-2 的擴充套件，目標是解決對話神經響應生成中的挑戰性難題。神經響應生成是文字生成的一個子類。而文字生成任務的目標都是生成與提示有關聯的看起來自然的文字（同時又與任何訓練例項都不同）。但是，建模對話面臨著很多顯著的難題，因為人類對話中兩個參與者的目標可能是相互牴觸的，而且可能響應的範圍在本質上也更具多樣性。因此，對話生成中的一對多問題通常比神經機器翻譯、文字摘要和文字釋義等其它文字生成任務的問題更為困難。人類對話通常更加不正式、噪聲更多，而當以文字形式聊天時，通常還含有非正式的縮寫或句法/詞法錯誤。

類似於 GPT-2，DialoGPT 是以自迴歸語言模型的形式構建的，其模型架構使用了多層 transformer。但不同於 GPT-2，DialoGPT 的訓練使用了從 Reddit 討論鏈中提取出的大規模對話對/會話。作者猜想這應該能讓 DialoGPT 學到對話流中更細粒度的 P(Target, Source) 的聯合分佈。他們在實踐中也觀察到了這一現象：DialoGPT 生成的句子豐富多樣而且包含特定於源提示的資訊，類似於 GPT-2 為連續文字生成的結果。
作者在一個公開的基準資料集（DSTC-7）和一個新的從 Reddit 帖子中提取出的 6k 大小的多參照測試資料集上對新提出的預訓練模型進行了評估。結果表明，DialoGPT 在自動評估和人類評估方面都取得了當前最佳的表現，將對話生成結果的質量提升到了接近人類的水平。作者已經公佈了本研究的原始碼與預訓練模型。作者表示，這種模型使用簡單，能夠輕鬆地適應新的對話資料集，尤其是訓練樣本較少的資料集。這個 DialoGPT 軟體包還包含一個開源的基於 Huggingface PyTorch transformer（HuggingFace, 2019）構建的訓練工作流程（資料提取/準備和模型訓練/評估）。

方法模型架構 DialoGPT 模型基於 GPT-2 架構。它從 GPT-2 繼承了帶有層歸一化的 12 到 24 層 transformer、一種適用於經過作者修改的模型深度的初始化方案，用於 token 化器的位元組對編碼（Sennrich et al., 2016）。遵照 OpenAI 的 GPT-2 方法，作者將多輪對話會話建模為了長文字，將生成任務納入到了語言建模任務的框架中。作者首先將一個對話會話中所有對話回合連線成一個長文字 x_1, · · · , x_N（N 為序列長度），並以「文字結束 token」結束。可將源句子（對話歷史）記為 S = x_1, · · · , x_m，將目標句子（基本真值響應）記為 T = x_{m+1}, · · · , x_N，則 P(T|S) 的條件分佈可以寫為一系列條件概率的積：

對於多輪對話例項 T_1, · · · , T_K，（1）式可寫為 p(T_K, · · · , T_2|T_1)，這本質上就是 p(T_i |T_1, · · · , T_{i−1}) 的條件概率的積。最終，對單個目標 p(T_K, · · · , T_2|T_1) 的優化可以被視為是優化所有的 p(T_i |T_1, · · · , T_{i−1}) 源-目標對。作者這裡的實現基於開源的 PyTorch-transformer 庫。
連結：https://github.com/huggingface/pytorch-transformers 互資訊最大化開放域文字生成模型有一個眾所周知的困難，即會生成枯燥的、沒有資訊的樣本。為了解決這個問題，作者實現了一個最大互資訊（MMI）評分函式（Li et al., 2016a; Zhang et al., 2018）。MMI 是利用一個預訓練的後向模型來預測給定響應的源句子，即 P(Source|target)。作者首先使用 top-K 取樣生成一組假設，然後使用 P(Source|Hypothesis) 的概率來對所有假設重新排序。直觀來看，最大化後向模型似然會對所有枯燥的假設施加懲罰，因為頻繁的和重複性的假設可能與很多可能的查詢有關，因此在任意特定查詢下得到的概率會更低。作者也嘗試了使用策略梯度來優化獎勵

，其中與 Zhang et al. (2018) 一樣使用了一種樣本平均的基線。這個驗證獎勵可以得到穩定提升，但不同於 RNN 框架下的訓練，作者觀察到強化學習訓練容易收斂到某個劣化的區域性最優解，這時的假設僅僅是對源句子的重複（即學舌模式），此時的互資訊是最大化的。作者猜想，由於 transformer 具有強大的模型表徵能力，所以它們很容易陷入區域性最優位置。但強化學習訓練規範化的相關工作還有待未來研究。

結果作者將 DialoGPT 與另外兩個基準進行了比較：作者自己內部的基於 (Li et al., 2016a) 的序列到序列模型 PersonalityChat，這個模型是基於 Twitter 資料訓練的，已經在微軟 Azure 的 Cognitive Service 得到了實際應用。表 2 總結了自動化評估的結果。有 345M 個引數的 DialoGPT 以及波束搜尋在幾乎所有基準上都得到了最高的自動評估分數。

表 2：DSTC 評估
作者進一步在一個有 6K 個樣本的多參照測試集上評估了 DialoGPT。結果見表 3。測試過程使用了兩種設定：從頭開始訓練以及使用 GPT-2 作為預訓練模型進行微調。在這兩種設定中，更大的模型都總是優於更小的模型。另外表 3 的倒數第二行總結了執行互資訊最大化的結果。

表 3：6K Reddit 多參照評估

表 4（互動式聊天）和表 5（有使用者提示的自播放聊天）給出了一些生成對話的樣本。

表 4：解決常識問題

表 5：多輪對話的互動式示例

有趣的是，新提出的模型表現出了在一定程度上解決常識問題的能力，作者猜想這可能要歸功於 Reddit 資料中可以學習到的豐富資訊。在某些案例中，模型並不是給出「所需的」答案，而會生成另一個可替代的合理答案。作者觀察到，該系統能比 RNN 對話生成系統更好地處理多輪對話生成，而且往往在上下文方面更能保持一致（表 5）。作者還通過眾包評估了從 Reddit 6K 測試資料集隨機取樣的 2000 個測試源。系統經過了配對，每一對系統的輸出都被隨機呈現給 3 位評判者，他們會根據相關性、資訊量和生成結果與人類結果的相似程度使用一個 3 分制的類 Likert 度量對這些結果進行排名。作者先要求這些評判者經過了一個資格測試，並採用了一種垃圾檢測制度。表 7 給出了評判者在相關性、資訊量和人類相似度方面的整體偏好，結果用原始數值與佔整體的百分比來表示。

表 7：在相關性、資訊量和人類響應可能性方面的人類評估結果

表 7 還表明「單純」的 DialoGPT 基質模型可能就已經能達到與人類響應相近的質量了。

https://www.toutiao.com/i6761246403457974797/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2665331/，如需轉載，請註明出處，否則將追究法律責任。

是什麼讓跨境電商既充滿機遇有滿是挑戰？
2024-05-30
“夢想江湖，從新出發”《新夢想世界》正式開啟
2020-03-20
為什麼開源？curl作者：讓世界變得更美好
2019-05-05
什麼是電話機器人？有什麼用？
2021-08-03
機器人
你有夢想嗎？華為雲學院助你實現夢想
2018-11-28
微信機器人能夠做些什麼事？
2018-11-25
機器人
作為程式設計師，你的夢想是什麼？
2019-02-25
程式設計師
讓機器學習告訴你，你的siri在想什麼！
2018-05-10
機器學習
開源是什麼意思？開源軟體優缺點有哪些？
2022-09-14
做人如果沒夢想，和鹹魚有什麼區別？
2020-10-21
微軟開源機器學習框架——infer.NET
2018-10-29
微軟機器學習框架
微軟開源機器學習框架——infer.NET
2018-10-09
微軟機器學習框架
微軟劍橋研究院院長Christopher Bishop：機器學習的基礎是什麼？
2019-02-21
微軟機器學習
Mac「自動操作」機器人有什麼用？
2020-09-30
Mac機器人
為什麼說盲盒市場充滿機遇
2023-04-11
聯想小新開機黑屏什麼反應都沒有聯想電腦開機黑屏怎麼解決
2022-03-02
你使用電話機器人的理由是什麼？
2021-07-21
機器人
伺服器雙機熱備軟體是什麼？有什麼作用？有哪些？
2023-02-02
伺服器
記一次講故事機器人的開發-我有故事，讓機器人來讀
2020-10-17
機器人
這個開發團隊讓機器人擁有思維，還打造了廢土科幻世界
2019-06-06
機器人
為什麼軟體開發方法論讓你覺得糟糕
2024-05-31
說說你做過讓你覺得最滿意的專案是什麼？為什麼？
2024-11-23
軟體工程--為什麼軟體開發方法論讓你覺得糟糕
2020-10-29
軟體工程
為什麼要使用Linux?幾大理由讓你滿意!
2020-07-06
Linux
傲野：如果測試沒有夢想，那跟鹹魚有什麼區別？
2020-05-18
專業遊戲開發者眼中的《夢想世界》
2020-02-19
遊戲開發
面試官：你還有什麼想問我的？
2024-03-14
面試
電話機器人是幹嘛的，有什麼作用？
2021-07-16
機器人
掘金 AMA：我是螞蟻金服分散式架構 SOFA 的開源負責人 -- 黃挺，你有什麼問題想問嗎？
2018-07-30
分散式架構
如果你有夢想，就一定要捍衛它！
2019-05-11
1 分鐘，讓你的網站充滿吸引力！
2024-11-20
網站
什麼。你還沒有搞懂Spring事務增強器，一篇文章讓你徹底搞懂Spring事務，雖然很長但是乾貨滿滿
2021-11-20
Spring
微軟開源的 AI 工具，讓舊照片煥發新生
2020-11-25
微軟AI
微軟正開發類GoogleAssistant助理機器人支援多平臺
2018-05-25
微軟Go機器人
什麼人直播能賺得盆滿缽滿
2022-07-18
六一，記得童年的夢想：讓計算機說人話。今天終於實現了
2018-06-02
計算機
淺析--為什麼軟體開發方法論讓你覺得糟糕？
2020-10-22
開源堡壘機是什麼？開源堡壘機的優缺點是什麼？
2022-01-05

微軟研究院開源DialoGPT：你有什麼夢想？「讓世界充滿機器人」

相關文章