關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

AIBigbull2050發表於2019-11-20
導語:微軟、阿里、百度、小米、京東以及華為!

雷鋒網 AI 科技評論按:對話作為人類最基本、最重要的交流方式,自然語言對話技術自然也成為了自然語言處理領域離人類最近的技術之一,這一領域乃至整個人工智慧領域要想走向理想狀態,勢必要解決自然語言對話所面臨的一系列問題和挑戰。

而所有技術的問題和挑戰在實踐應用中是最容易體現出來的,因而對此最具有發言權的莫過於實現技術落地的企業一線技術人員。

近日,華為諾亞方舟實驗室語音語義首席科學家劉群就在 CNCC2019 上主辦了一場主題為「自然語言對話:技術挑戰和應用前景」的技術論壇,邀請了來自微軟、阿里、百度、小米、京東以及華為這幾家在自然語言處理領域涉獵較深的大廠一線技術負責人——周明、陳海青、孫珂、王剛、何曉冬以及蔣欣來對這一主題進行探討,幾位演講嘉賓既從宏觀的技術視角闡述了自己對於該研究領域的看法和觀點,也從應用案例的角度分享了自然語言對話的技術實踐。

關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

從左至右依次為:陳海青、何曉冬、孫珂、周明、王剛、蔣欣、劉群

我們一一來看他們在本場技術論壇的分享內容。

微軟周明:面向深度理解的聊天機器人

  關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

來自微軟亞洲研究院的周明,首先從宏觀、全域性的視角分享了聊天機器人的整個技術演化程式。他指出,聊天機器人技術有從檢索式回覆到生成式回覆再到整合式回覆的三個發展階段。

其中檢索式回覆利用文字匹配技術選出相似的對話以此輸出對應的回覆,而生成式回覆則是利用文字生成技術得到相應的回覆,二者相比各有優缺,前者的優勢在於可讀性好、語言流程,多樣性強以及易於分析、可解釋性強,缺點則在於強依賴於檢索資料,輸出的回覆有時在相關性方面並不好;後者在相關性方面表現較好,易於進行端到端實現並且靈活性強、不太依賴於檢索資料,然而在多樣性方面較差,同時輸出的回覆往往比較短,沒有太多資訊量。

整合式回覆生成則採用檢索式系統提供候選原型回覆、生成式系統對原型加以修改的方式,既能夠繼承檢索模型回覆的多樣性,又能夠繼承生成模型的靈活性,對二者揚長避短。

與此同時,周明指出,雖然回覆技術取得了一定進展,包括基於神經網路的 S2S 模型一定程度上改進了生成的回覆流暢度,預訓練模型讓檢索式回覆技術一定程度上增強了上下文理解能力等,但目前聊天機器人依舊距離理想的狀態很遠,具體而言體現在:

  • 第一,在多輪對話中,機器人依舊無法真正理解對話歷史中的複雜句間關係;

  • 第二,對話風格與內容的解耦仍然不佳,即便風格符合,內容往往在改寫中出錯;

  • 第三,對話很難保持時間、空間和邏輯一致性,容易出現前後矛盾的情況;

  • 第四,缺乏人類先驗知識;

  • 第五,聊天機器人「健忘」,無法記憶使用者所說的內容。

對此,未來聊天機器人需要採用面向深度理解的回覆機制,努力的方向包括:讓聊天機器人融入常識和知識、 精準理解對話歷史、強化記憶機制從而提高上下文的一致性,並且能夠實現定製回覆生成的風格(包括詞彙量、情感、句式和正規性等),而為了實現這些目標,社群還需要建立更加精準的評測,包括資料集和評測指標等。

阿里陳海青:阿里小蜜智慧人機互動技術實踐

  關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

阿里巴巴集團達摩院智慧服務事業部資深演算法專家陳海青則從更加應用的角度,基於阿里的人機互動產品——阿里小蜜介紹了阿里 NLP 核心技術及人機互動技術實踐、面臨的挑戰及未來的發展方向。

簡單介紹阿里小蜜平臺的生態圈和應用後,陳海青介紹了其背後的核心 NLP 支撐技術:

  • 自然語言處理板塊的分層梳理流程,主要包括分層領域的框架設計,基於不同業務場景的意圖和模型設計與積累,以及透過模型沉澱框架並進行平臺化積累,能夠完成 QA Bot、Task Bot、Predict Bot 以及 Chit Chat 四項任務的能力。

  • 圍繞資料、演算法、服務、應用四個層面的 NLU 架構體系,則包括資料的沉澱以及業務標註的訓練平臺體系構建、基於平臺化演算法框架的意圖識別和實體識別能力搭建以及基於規則、降級模型以及深度模型的 NLU 工程能力平臺搭建。

而當前 NLU 還是以意圖識別和實體識別為核心能力,其面臨的核心挑戰是意圖的平臺化擴充套件效率和小樣本場景的冷啟動,就 NLU 的效率和效果而言,主要涉及的問題是如何構建資料、演算法和服務。

最後,陳海青指出,未來智慧服務機器人將以多模態的方式,不僅提供自動服務模式,同時提供更好的人機協同模式,為使用者和客服人員提供更復雜問題的解決能力和決策支援能力,而持續探索的技術方向有生成模型、強化模型、遷移學習、機器閱讀理解、情感分析等。

百度孫珂:可定製對話系統的挑戰與設計

關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

百度自然語言處理部主任研發工程師、UNIT 平臺技術負責人孫珂基於百度的智慧對話定製和服務平臺 UNIT 分享了目前可定製對話系統的挑戰與設計。

一開始,孫珂先丟擲了對話技術在面對產業定製需求時所面臨的一些挑戰:

  • 在消費網際網路中,對話服務的關鍵任務是提供最好的產品服務從而儘可能擴大使用者規模,要求工程師結合使用演算法實現效果最佳化、能夠定向挖掘海量資源以及部署方案具備高吞吐能力的定製對話技術;

  • 然而到了產業網際網路,對話服務的關鍵任務則是在實現較好效果的前提下降低定製的邊際成本,要求工程師結合應用演算法的綜合最佳化成本低廉、獲取資源和詞典低成本以及部署方案能夠靈活適應環境的可遷移對話技術。

而將可遷移對話技術的目標進行拆解來看,設計思路便是用高學習效率的模型和自動發現模型缺陷板塊來提高單位資料對提高對話效果的幫助,而使用知識輔助構建和預置知識來降低單位資料的獲取成本。

整體基於這一思路設計的 UNIT,核心對話技術包括任務式對話和問答式對話,具體設計思路分別如下:

  • 針對任務式對話,UNIT 在高效率的學習模型上採用的是核心理解引擎為啟發式對話理解、基於深度學習的對話理解以及多引擎結果融合,成分分析為領域或通用關鍵詞分析的多引擎融合對話理解模型;在自動發現模型缺陷板塊和高效率知識構建工具方面,則採用 DataKit 以及 15 套對話式理解正規化,可自動修復理解異常問題,從而提高對話效果理解。

  • 針對問答式對話,UNIT 的設計思路則是不定義任務、不梳理知識,而是直接用原始業務資料直接生成回覆;其核心技術是引入外部知識的閱讀理解模型——文字表示和知識表示融合的閱讀理解模型 KT-NET。

小米王剛:語音互動帶給人機互動的變化

關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

與前兩位基於自家產品進行技術解析不同,小米人工智慧部副總經理、小愛團隊負責人王剛從語音互動給人機互動帶來的變化出發,闡述了自身對於語音互動未來發展方向的看法。

他認為未來的語音互動有三個發展趨勢:無所不在、更自然的互動以及更懂你。而背後的技術可具體拆解為喚醒、識別、理解、滿足與合成幾大板塊,針對這幾大板塊目前所存在的幾大問題,王剛分別介紹了這些問題面臨的挑戰、當前的解決方案以及未來的潛在解決方案:

  • 第一個問題是 ASR 錯誤率高,其面臨的挑戰主要為同音錯別字、多字少字、中英文混雜、口音及方言,當前的解決方案為「NLP 幫 ASR」、「ASR 幫 NLP」,而未來可以嘗試往語音、語義一體化的方向嘗試;

  • 第二個問題是 Query 意圖理解難,其面臨的挑戰主要為領域和常識知識積累少、資訊量少以及表達方式多樣化,當前的解決方案為垂域持續建設以及增強中控能力等,而未來則會逐漸走向涵蓋知識能力、演算法能力、資料能力和使用者反饋閉環的綜合能力的建設。

  • 第三個問題是全領域全雙工連續對話,目前面臨的挑戰為技術鏈路長,當前解決方案為在前端進行回聲消除,採用上下文繼承方法來實現垂直域、跨垂域多輪對話,以及無效音拒識(語音拒識、語義拒識、聲紋識別)、節奏控制(回覆打斷、主動響應以及 Query 預測)以及結合應用圖形互動介面和語音互動介面等方法;

  • 第四個問題是單領域複雜任務對話,目前面臨的挑戰為當遇到領域特有詞時,ASR 的錯誤率上升,另外面對歧義表達需要領域知識消歧和驅動對話等,當前的解決方法為:1)提高表示能力,包括領域知識的本體表示、對話表示以及本體表示道對話表示的轉移能力等;2)提高任務式對話能力,包括在 NLU 上,基於對話建模抽取槽位資訊而非槽位標註方案以提高魯棒性;在 DST 上,基於對話表述和 NLU 輸出更新對話狀態;在 Policy 方面,基於對話狀態進行對話引導。

  • 第五個問題是主動感知和推薦問題,目前的解決方法主要從主動互動、場景理解以及使用者畫像等層面來解決此問題。

京東何曉冬:任務導向型大規模對話系統及應用

關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

京東人工智慧研究院常務副院長、深度學習及語音和語言實驗室主任何曉冬在演講中強調了人機對話對於人機互動未來發展的重要性及其當前面臨的幾大技術難點,基於此,他也對對話系統下一步的發展方向闡述了自己的觀點。

他指出,多輪人機對話是人工智慧的起點及聖盃,而作為人類最基本、最重要的交流方式,對話也是人機互動技術未來的期望所在,然而雖然目前出現了很多應用於特定領域的對話系統並且領域內也在嘗試針對開放領域以及高複雜、可靠性要求高的任務的對話系統,但是目前尚無系統能夠真正透過圖靈測試。

在典型應用上,以京東大規模的複雜客服場景為例,對話系統需要覆蓋售前、售中、售後以及物流,涉及到智慧排程、智慧導航、智慧摘要、實時輔助應答、智慧質檢以及智慧創事件等具體任務。基於在大規模任務導向場景中的積累,京東還聯合北京智源研究院釋出了智源—京東大規模任務導向性對話資料集。

從技術難點來看,何曉冬進一步指出,對話技術目前主要面臨五大難點:

  • 一是多輪對話狀態跟蹤不充分,對話系統缺乏有效的全域性最佳化機制,評估準則欠缺;

  • 二是基於上下文歷史資訊的精確語義理解還有待提高,缺乏對使用者意圖的精確理解;

  • 三是缺乏大量的領域知識及基礎常識的支撐,目前還不能執行深度的推理與決策;

  • 四是對話生成機制還待探索,缺乏可控性、可解釋性,難以產生有對使用者有同理心的回覆;

  • 五是包括視覺、語音、語言的跨模態的對話與互動技術還有待深入研究;

對此,何曉冬表示,對話系統下一步必然走向全方位多模態的互動方式,透過視覺、語音、語言、知識等統一,使得人與機器的交流變成無限制的交流。基於這一目標,京東 AI 研究院也在不斷推進多模態對話智慧基礎研究。

華為蔣欣:對話系統中的若干技術探索

關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

來自華為諾亞方舟實驗室的蔣欣則從對話資料的收集和增強以及對話深度語義理解兩個維度來分享對話系統中的一些技術探索。

作為構建對話系統的基石,對話資料的收集面臨著不少困難,例如使用者隱私、領域強相關、標註複雜性以及動態互動和評估等都是其面臨的問題,對此學術界提出了人-人對話、人-機器對話以及機器-機器對話等三種資料收集方法。

其中人-人對話(Wizard-of-Oz)雖然較為貼近真實對話場景,然而人工標註和校驗成本高,並且對互動行為的覆蓋率低;機器-機器對話(Self-Play)雖然在覆蓋率和多樣性方面更佳,標註也相對容易,然而對話資料質量依賴於模擬使用者機器人和系統機器人,因而在實踐中往往會結合 Wizard-of-Oz 和 Self-Play 兩種方式分別生成對話資料,再使用資料訓練對話系統的 NLU、DST、Policy 以及 NLG 模組,通常可以在受限領域的對話中達到較高的成功率。

對話資料增強方面,一個比較通用的方法則是複述生成,華為諾亞在近期的工作中提出基於 Seq2Seq 神經網路生成相同語義的不同表達,具備更好的可解釋性、可控性和可遷移性;此外,在對話狀態跟蹤任務上,提出基於 Contextual Bandits 對增強的資料進行選擇,最後並聯合訓練資料增強模組和狀態跟蹤模組。

對話深度語義理解上,目前最好的模型是預訓練語言模型:

  • 預訓練語言模型作為語義理解新正規化,具體指在大規模文字語料上訓練語言模型,之後在下游任務上微調訓練,以中文預訓練語言模型「哪吒」為例,目前基於 BERT 已在華為雲上實現了多機多卡資料並行訓練並嘗試了混合精度訓練、全詞覆蓋等一系列訓練技術;

  • TinyBERT 模型則是專為 Transformer 模型設計的知識蒸餾方法,是以 BERT 作為「老師」蒸餾出的一個小型化模型,以適應不同邊緣裝置上的計算需求。它的引數量為 BERT 的 1/7,預測速度是後者的 9 倍,並且在 GLUE 評測上相比 BERT 僅下降了 3 個百分點。

    關於自然語言對話的技術挑戰和應用前景,來自這六大廠的一線技術負責人聊了聊

演講結束後,在劉群的主持下,周明、陳海青、孫珂、王剛、何曉冬以及蔣欣六位嘉賓還基於本場技術論壇的主題「「自然語言對話:技術挑戰和應用前景」,展開了一場 Panel 討論,就「在開發對話系統的實踐中遇到的難點」、「自然語言對話的資料和評價問題」、「強化學習在自然語言對話的實際應用中所存在的問題」以及「未來對話技術將會在哪些方面會取得突破,應用上是否會有殺手級的場景出現」等問題發表了自己的觀點並展開了深度交流。







來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2664940/,如需轉載,請註明出處,否則將追究法律責任。

相關文章