阿里巴巴達摩院:自然語言處理技術有哪些進展和趨勢?

AIBigbull2050發表於2020-08-06
簡介:達摩院釋出的 “2020 十大科技趨勢” 預測中,一個重要趨勢就是人工智慧從感知智慧向認知智慧演進。作為認知智慧的一個重要核心技術,自然語言處理在過去一年中有了進一步的發展,無論從技術和產品都有顯著的成果,例如大規模預訓練語言模型的明顯優勢和廣泛應用,智慧對話和服務助理,結合領域需求的 NLP 技術和知識圖譜等。本文分享達摩院自然語言處理技術小組各領域專家對過去一年 NLP 的技術,平臺和產品方面的總結,並對新一年的趨勢進行展望,描繪阿里自然語言處理技術的新十年。


2019 回顧:五大技術進展和四大應用與產品

回望過去,在自然語言處理技術的應用和研究領域發生了許多有意義的標誌性事件,我們將從“技術進展”、“應用與產品”兩大維度進行回顧。

2019 年,技術進展方面主要體現在預訓練語言模型、跨語言 NLP/無監督機器翻譯、知識圖譜發展 + 對話技術融合、智慧人機互動、平臺廠商整合AI產品線。

1 預訓練語言模型

隨著 2018 年底 Google 提出預訓練語言模型 BERT,在多項 NLP 任務上獲得更優效果,預訓練語言模型的研究與應用被學術界和工業界視為 NLP 領域的一項重大突破,將 NLP 問題的解決方式從以往的為每個任務單獨設計複雜的模型逐漸演變成了預訓練 + 微調的正規化,讓眾多 NLP 應用能夠享受到大語料預訓練模型帶來的紅利,在通用的預訓練模型的基礎上加入簡單的任務層,並結合自己場景的少量語料就可以獲得一個不錯的領域 NLP 模型。

至此開啟了自然語言處理的新篇章。

在 2019 年,各個研究機構和公司在 BERT 的基礎上進一步創新,紛紛提出了自己的預訓練模型,如:Facebook 釋出的 RoBERTa,CMU 釋出的 XLNet,Stanford 釋出的 ELECTRA,還有百度的 ERNIE 模型,阿里的 structBERT 模型, 華為的 NEZHA,哈工大和科大訊飛也都提出了自己的模型,不斷重新整理 NLP 任務的最好成績。

這新的工作總結起來,主要來自訓練任務設計和訓練演算法兩個方面。

訓練任務設計

進行更加精細的語義粒度建模,包括引入更細粒度的建模物件和更加精細的刻畫語義關聯。

比如 “全詞 Mask” 或者 “Knowledge Masking”,技術在 MLM 預訓練任務中 Mask 整個詞而不是單個 Token,進而提升了任務難度使得 BERT 學到更多語義資訊,哈工大和科大訊飛聯合釋出的中文 BERT 模型以及 NEZHA 模型中得到了應用;再比如引入更多型別的句間關係,從而能夠更加準確描述語義關聯性,進而提升語義匹配等方面能力,這在阿里和螞蟻團隊的 BERT 模型中得到體現。

利用新的機器學習方法建模

包括 CMU 和 Google 聯合釋出的 XLNet 使用了 Autoencoder 和 Auto-regressive 兩種方案;史丹佛大學提出的 ELECTRA 模型,引入對抗機制來進行更好的 MLM 學習。華盛頓大學和 Facebook 聯合釋出的 SpanBERT 模型還引入了 Span 預測任務。這些方案應用更學習方法來建模文字之間的聯絡,從而提升模型效果。

訓練演算法設計

針對模型的易用性的問題,減少模型引數,或者降低模型的複雜度,包括 Google 釋出的 ALBERT 使用了詞表 embedding 矩陣的分解與中間層的共享。

提高訓練速度的最佳化

包括混合精度訓練,用 FP16 來進行權重,啟用函式和梯度等的表示;LAMB 最佳化器透過一個自適應式的方式為每個引數調整 learning rate,模型訓練能夠採用很大的 Batch Size; 這些方法極大地提高了訓練速度。

阿里的 structBERT 模型透過引入更多模型和任務結構化資訊,提升語言表示能力。在Gluebench mark 上多次名列前矛和保持領先位置。透過蒸餾和 CPU 加速,RT 提高了 10x,finetuned 的模型給多個業務場景帶來了明顯提升,上線了 AliNLP 平臺。

預訓練語言模型在大規模無監督文字上進行預訓練,將得到的詞和句子的表示遷移到廣泛的下游任務上,包括文字匹配,文字分類,文字抽取,閱讀理解,機器問答等不同的場景。如阿里語言模型在 MS MARCO 問答評測,TREC Deep Learning 評測上都取得了第一名的好成績。

下游的任務可以在低資源的情況下快速獲得一個不錯的解決方案,極大的提升了 NLP 演算法的應用落地能力。

2 跨語言 NLP/無監督機器翻譯

作為預訓練語言模型的擴充套件,Facebook 的研究人員提出了跨語言的語言模型預訓練 “Cross-lingual Language Model Pretraining”,僅使用單語資料的無監督訓練和使用平行語料的有監督訓練的條件下,模型有效學習了跨語言文字表徵,在多語言分類和無監督機器學習等任務上,都比之前的最優結果有顯著的提升。

繼 2018 年 Google 預訓練語言模型 BERT 橫掃 主流 NLP 任務之後,2019 年 Facebook 釋出了新型跨語言預訓練語言模型 XLM,實現不同語言在統一嵌入空間的表徵共享,並在無監督機器翻譯任務上帶來顯著的質量提升。在探索大規模、多語言神經機器翻譯方向上,Google、阿里巴巴等進行了有效探索,透過同時在數十乃至數百種語向的平行語料上訓練一個模型,而不是對各個語向分別建模,實現語義對映關係共享,不僅壓縮了模型數量,同時普遍提升了小語種翻譯效果。

過去一年來,多語言 NLP 技術的研究成果主要集中在機器翻譯(特別是無監督的機器翻譯),跨語言詞向量,多語言 NER,依存句法分析,詞對齊和多語言詞典生成等方向。

由於跨語言詞向量的學習/對映是其中的關鍵步驟,目前的無監督/跨語言的 NLP 任務在相近的語言之間(如英語/法語,英語/西班牙語等)效果最好,在不同的語言家族間(如英語/越南語)效果還是有較大提升空間。

3 知識圖譜發展+對話技術融合

隨著資料量的積累和應用對資料質量和結構要求的提升,近幾年知識圖譜又成為一項熱點技術開始被關注。

知識圖譜技術領域在 2019 年的發展,包括領域知識圖譜的構建和整合(金融、企業等)、圖譜平臺化標準能力的建設(schema 定義 + 構建 + 呼叫)、圖譜應用演算法建設(基於圖譜資料的圖模型 + 規則推理等);並基於構建的圖譜資料和能力,開始在更多的業務場景得到應用(搜尋推薦內容理解和挖掘、金融風控和決策、對話理解和內容生成等)。

在知識圖譜和對話結合的技術方向,對話技術在問答和任務式對話近幾年已形成了一定的技術框架和業務覆蓋,開始需要解決一些對知識理解 + 答案專業性要求更高的領域場景(理財助理等)。

對話技術結合知識圖譜的領域知識完整度 + 結構化質量優勢來進行覆蓋,可以解決相應場景下語料標註(意圖理解)和專家配置(對話流程 + 響應生成)上的不足,進一步提升對話覆蓋和響應質量。融合知識圖譜對話這個方向,在 2020 年會有更多的真實場景落地和覆蓋。

4 智慧人機互動

自然語言理解和深度問答匹配技術在學術和工業界持續發發展,並且已經在全域業務和場景有了大規模應用,基於預訓練語言模型進一步帶來效能的提升。

  • 機器閱讀理解成為低成本通用技術,圍繞百科、政策法規、商品詳情頁、說明書等場景構建應用中臺能力,接入效率有了很大提升。結合圖-文的多模態 VQA 問答技術在行業中率先孵化,理解商品詳情頁長圖進行問答成為一項新的競爭力。
  • 對話(Dialog)技術能力進一步發展,但是在端到端的基於資料驅動的對話狀態跟蹤和對話策略還是隻能在限定範圍內進行探索,工業場景基於對話平臺構建的任務型機器人成為了主流的實現方案。
  • 多語言技術實現新語言的快速擴充,基於 Cross-Lingual 構建多語言語言模型,在遠距離語言對在英 -> 中、英 -> 泰遠距離語言對上超越 Google,擴充一個新語言從去年的 2 個月縮短到 2 周。
  • 對話生成技術開始取得突破,基於結構化知識的引入提升生成的可控性,賣點的生成帶來導購轉化率的提升。

5 平臺廠商整合AI產品線

隨著 AI 技術發展和 AI 應用的需求,AI 技術框架的成熟(Tensorflow、PyTorch等),AI 技術能力逐漸被標準化為一系列 AI 平臺類產品,面向企業和開發者,提供更低門檻和更高效率的 AI 應用支援。

對話類平臺,Google 從 2016 年開始釋出 Assistant 對話助手,這幾年陸續釋出了 Google Home(現在整合到 Nest 智慧家居品牌),Duplex 語音電話,以及收購了 API.AI 對話開發平臺;今年 Google 已基本整合這些對話產品線,基本佈局了對話現有的平臺 + 終端,現成一個整體的對話產品線。

AI 類平臺方面,Amazon 自 2017 年釋出 SageMaker 機器學習平臺產品,今年進一步基於 SageMaker 整合 AI 開發過程,同時打通下游技術框架和上游 AI 應用,整合 AI 產品線。類似阿里的機器學習平臺 PAI,定位成面向企業和開發者的一站式機器學習平臺。

2019 年,應用與產品方面主要體現在機器翻譯、對話系統、多輪對話智慧服務、智慧語音應用持續發展。

6 機器翻譯

機器翻譯的產品發展延續了之前的趨勢,在通用領域(新聞),特定領域(電商,醫療等)擴充套件了更多的語言方向,支援了更豐富的業務場景,並持續帶來商業價值。阿里巴巴在翻譯干預和智慧泛化方向進行了卓有成效的探索,把業務知識更好地融合到神經網路翻譯框架中,大大提升了垂直場景下關鍵資訊的翻譯準確率。

高價值和高敏感內容的翻譯目前仍離不開人工,因此在計算機輔助翻譯(CAT)引入智慧演算法實現人機協同翻譯,以及機器翻譯後編輯(MTPE)等新型生產模式,也受到越來越多的關注。阿里巴巴、騰訊在自動後編輯(APE)、互動式翻譯(IMT)都開始有產品推出,並在實際業務中落地。

除了文字翻譯之外,更多的多模態翻譯應用場景出現,如語音翻譯在會議同傳,雙語字幕,翻譯機硬體上的嘗試(阿里二十週年年會上馬老師和逍遙子演講也以實時雙語字幕的形式展示)。

結合 OCR,機器翻譯和合圖技術的圖片翻譯在支付寶掃一掃,微信,搜狗翻譯機上得到應用。隨著賣家直播的興起,直播影片翻譯的場景和需求也會越來越多。但是受限於直播場景中複雜的領域,專業的術語,快速的語速和有時嘈雜的背景環境,直播翻譯對於語音識別和機器翻譯的挑戰也是非常巨大。

7 對話系統

  • 對話系統的語言覆蓋進一步提升,基於多語言遷移能力快速擴充了法語、阿拉伯語、臺灣話的對話系統,目前已支援 11 個語種,及馬來語-英語和泰語-英語的混合語言理解,為 Lazada 和 AE 帶來解決率的大幅提升。
  • 對話系統支援了更大規模的商家和企業,支撐了超過 50+ 的集團經濟體客戶,店小蜜擴充了通用包、行業包、店鋪包的知識定位能力,累計承載百萬級活躍商家,日均千萬級對話輪次。釘釘小蜜基於企業智慧助理承載了 40W 日均活躍企業。
  • 對話系統的互動形式進一步豐富,直播小蜜實現了從商品相關問題的被動回答,到主動和使用者展開開放式對話的轉變,帶來 cdau 破百萬。
  • VQA 等多模態理解能力落地店小蜜及經濟體小蜜,提升使用者互動體驗的同時大幅降低商家配置成本。
  • 熱線小蜜的語音互動能力作為典型案例獲 2019MIT Technology Reviewer 十大突破技術提名,並沉澱了面向多領域的外呼場景,並在多個生態輸出。

8 多輪對話智慧服務

多輪互動在智慧服務場景(客服機器人)在解決使用者模糊問題,提高使用者使用體驗方面起到的重要的作用。模糊問題指使用者問題描述不完整,如 “怎麼開通” ,這句話沒有說明是哪個業務,這類問題佔客服機器人總提問量的 30%。

螞蟻智慧服務團隊設計了基於標籤的多輪互動方案,首先離線挖掘標籤,並稽核,標籤包括業務標籤(花唄,備用金...)和訴求標籤(怎麼開通,如何還款...),透過向使用者反問標籤列表的形式澄清使用者問題。

已有的問題澄清方法主要透過直接推薦完整澄清問題的方案,但定義什麼是好的澄清問題仍然不明確,螞蟻團隊設計了一個基於強化學習推薦標籤列表的方案做問題澄清,整個標籤推薦是一個序列決策的過程,在使用者點選了標籤之後,我們會把點選的標籤和原始的使用者問題一起作為澄清後的問題。

整個最佳化的目標是,目標是最大化整個標籤列表對潛在澄清問題的覆蓋率,同時保持不同標籤對潛在澄清問題集合的有效劃分,因此,在強化學習過程中,相應設計了基於資訊增益的獎勵(Reward)。

基於強化學習方法的多輪互動上線後,螞蟻客服機器人場景共解決了 33% 的模糊問題,機器人綜合場景轉人工率絕對下降 1.2%。

9 人機對話構建新的互動入口

場景驅動的個性化多輪對話技術,助推人機對話場景擴充,同時語音語義一體化的上下文語義理解技術,持續提升多輪對話達成率。

天貓精靈在過去一年中,將人機對話能力擴充到二哈電話助手,語音購物,新人使用引導等複雜的互動場景,更是在雙十一期間,創造了語音購物 100 萬訂單的記錄。

天貓精靈在去年的 315 推出了防騷擾電話助手 “二哈”,開啟了全新的人機對話互動場景:作為使用者的替身完成對話。“二哈” 的對話場景是在垂直領域內的開放式多輪對話,目的是透過對話來識別來電意圖,並代替使用者來獲取必要資訊。在 “二哈” 中我們提出了基於多輪對話上下文的機器閱讀理解技術,用以理解來電意圖和關鍵資訊;基於對於來電內容的理解,我們基於 Transformer 構建了對話策略模型,用以選擇策略和生成對話。針對 “二哈” 的對話場景,我們提出使用圖靈測試透過率來衡量對話的質量,亦即當來電在整個對話中都沒有意識到是機器在與其通話時,可以認為 “二哈” 透過了圖靈測試。“二哈” 目前的圖靈測試透過率達到了 87%,有效的幫助了使用者應對陌生來電,節省使用者時間。

透過人機對話的方式去完成複雜的任務,比如點咖啡、購物等,往往需要機器和使用者進行多次對話互動,同時在不同的任務場景下,對話機器人需要掌握各自領域的知識,才能和使用者對答如流。比如在語音購物場景,天貓精靈具備跨行業的智慧導購員能力,吸收各行業導購員的銷售經驗,在使用者進行語音購物的時候,以最終的成交轉化為目標,像商場的銷售員一樣主動進行多輪對話形式的購物引導,深入挖掘使用者購物需求並結合使用者畫像進行精準推薦。且對不同的使用者,天貓精靈可以採用最適合 TA 的對話方式,做到個性化多輪對話。

多輪對話的達成,是建立在一系列的單輪互動都達成的基礎上的,而如果整體任務的達成率是簡單的單輪達成率的乘積關係的話,多輪對話的達成率將很難提升。而打破簡單乘積關係的關鍵在於,每一輪對話理解的時候,需要充分利用上下文資訊。

在天貓精靈上,我們進行了上下文語音語義理解的探索。首先在語音解碼的環節,我們將多輪對話中,上文提到的實體資訊構建成 memory,透過 attention 機制讓解碼器網路感知到這些對話場景資訊,顯著提升了多輪對話場景的語音識別精度,然後在語義理解環節,我們獨創了具備跨輪 attention 能力的端到端上下文繼承模型,實現更高效的對話場景恢復的能力。從而讓線上多輪對話的錯誤率下降了 58.5%,有效保障了複雜多輪對話場景的擴充。

10 智慧語音應用持續發展

智慧音響,近幾年基本上國內外大玩家都已陸續進入市場(Amazon Alexa、Google Home/Nest、天貓精靈、小米小愛、百度小度),2019 年進入競爭格局;2019 年智慧音響出貨量仍然在增加,但增速下降。

智慧音響仍然以音樂播放等軟體類服務為主,但進一步應用創新仍依賴智慧家居和 IoT 裝置的進一步普及。

智慧語音電話,2018 年 Google I/O 大會展示了 Duplex 的語音電話助手 demo。2019 年智慧語音電話開始更多地應用到真實業務領域,包括電銷、金融、政務等領域的應用都在增長,以提升使用者服務覆蓋+降低人工成本。

螞蟻智慧語音電話 2019 年也在安全(核身)、金融(保險回訪、微貸催收)、支付(客戶啟用)等更多金融場景應用和落地。

智慧語音類應用,所面向的使用者場景強依賴對話語音互動,推動了 NLP 技術和語音技術的發展;隨著技術和產品的發展成熟,以及使用者接受度的提高,2020 年的應用規模和領域會進一步擴大。

2020 趨勢:NLP 進一步推動人工智慧從感知智慧向認知智慧的演進

站在新的一個十年,智慧人機互動、多模態融合、結合領域需求的 NLP 解決方案建設、知識圖譜結合落地場景等將會有突破性變化。

1 智慧人機互動

語言模型將在智慧人機互動中扮演更重要的角色,形成更豐富的形式,混合 100 種語言的多語言語言模型,以及融合影像-文字和語音-文字多模態語言模型將嶄露頭角,在不同語言、不同模態、不同領域的小樣本場景下帶來全面的能力提升。

  • 多語言互動從不同語言理解上升到不同文化的理解,透過跨文化理解技術深入當地文化實現地道的對話互動。
  • 以線上文字為核心的互動方式將全面轉變為結合影片、影像、語音、文字的多模態人機互動。
  • 基於資料驅動的對話狀態跟蹤和對話策略將逐漸替代規則式策略,使得多輪對話技術進一步演進,帶來更自然的對話體驗。
  • 知識圖譜將廣泛融入問答和對話的各類深度學習模型,透過先驗知識及推理能力的融入,使得模型更為白盒化,在對話的理解和生成過程中帶來更好的可控性和可解釋性。
  • 對話系統在小樣本情況下的冷啟動能力提升帶來應用構建成本的大幅下降,對話系統從主要為大體量的客戶服務,擴充為更普惠的、廣泛的支援海量規模、各行業的小企業及小商家,並進一步走向海外,使得更多不同國家、不同語言和不同文化的使用者進入智慧服務時代。

2 多模態融合

  • 隨著 5G 和邊緣計算的逐步成熟和普及,將帶來影片、影像、文字、語音等模態的全面融合,語言模型朝著多模態融合的方向發展,在線上場景下實現混合模態的理解,將能融合理解使用者經過多輪對話傳送的圖片、語音和文字內容,並以多模態的形式進行回覆;
  • 對話系統產品中將全面實現多模態互動能力,直播和 IOT 大屏互動將全面應用影片+影像+文字多模態技術帶來豐富的互動體驗,流暢的全雙工語音對話機器人將被普遍應用,實現邊聽邊想、邊聽邊猜、主動搶話等類人互動能力。
  • 在語音互動場景下透過聲學訊號+文字訊號,識別使用者交流中的情緒變化, 在 IOT 互動場景下實現基於攝像頭、麥克風的擬態生命;

3 結合領域需求的NLP解決方案建設

過去 NLP 演算法多以平臺/API 的方式輸出通用模型,相應地也在各種雲上建立了通用 NLP 演算法平臺(Amazon Comprehend,微軟 Azure Text Analytics,谷歌雲 Natural Language,阿里 NLP,百度 NLP 等)。

但是在業務場景中,每種場景領域都有自己的特定的需求,產生了相應的場景資料。通用模型結合場景資料進行領域自適應訓練,從而輸出的領域定製模型會更好地滿足業務需求。

4 知識圖譜結合落地場景

面向新的一個十年,透過 NLP 和知識圖譜兩大核心技術來構建行業知識圖譜,機器能夠透過知識圖譜挖掘隱性關係,洞察“肉眼”無法發現的關係和邏輯,用於最終的業務決策,實現更深層次的業務場景落地。從發展方向來說,可以分為下面幾個方面:

  • 最佳化知識抽取能力:結合已有的知識和 NLP 技術能力進一步提高非結構化資料理解能力,應用預訓練語言模型、資訊抽取、實體連結等相關的技術,對非結構化及半結構化資料進行抽取和轉換,形成知識圖譜形式的知識,以及和知識圖譜裡面的結構化的知識進行連結。
  • 與行業知識沉澱:在行業知識圖譜解決方案實際的落地過程中,面臨重重挑戰,行業知識圖譜的構建,本身就需要資料積累和基於業務場景的資料理解,而構建和積累行業知識圖譜,將是認知智慧時代的核心競爭力。在行業資料構建時,對知識的準確性要求非常高,實體通常需要較多且具有行業意義。需要針對多源異構資料融合,基於可動態變化的“概念—實體—屬性—關係”資料模型,對各種型別的資料進行抽象建模。
  • 智慧可信的知識推理:基於過去已知知識進行知識推理,理解行業事件知識驅動知識推理傳導,利用行業規則邏輯結合深度模型進行推理,使其能夠在業務的推理和輔助決策上帶來更加智慧化的體驗。

以上是我們對於 NLP 技術過去一年發展的回顧和今年趨勢的思考。一家之言難免疏漏或者以偏概全。拋磚引玉,希望能夠得到更多同學們的思考和指正。比爾·蓋茨曾說過,“語言理解是 人工智慧 皇#冠上的明珠”。要達到這樣的高度,還需要技術和應用上的突破發展期待在下一個十年的開始,我們一起讓 NLP 技術發展更加迅速,應用場景更加豐富,推動認知智慧的發展更進一步。


釋出於 06-23




https://blog.csdn.net/weixin_42137700/article/details/107834409



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2709659/,如需轉載,請註明出處,否則將追究法律責任。

相關文章