人工智慧(Artificial Intelligence，簡稱AI)作為新一輪科技革命和產業變革的重要驅動力量，正在深刻地影響世界、改變世界。而自然語言處理(Natural Language Processing，簡稱NLP)已成為AI領域的研究熱點，它推動著語言智慧的持續發展和突破，並越來越多地應用於各個行業。正如國際知名學者周海中先生曾經所言：“自然語言處理是極有吸引力的研究領域，它具有重大的理論意義和實用價值。”

NLP主要研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。而用自然語言與計算機進行通訊，有著十分重要的實際應用意義，也有著革命性的理論意義。實現人機間自然語言通訊意味著要使計算機既能理解自然語言文字的意義，也能以自然語言文字來表達給定的意圖、思想等;前者稱為自然語言理解(Natural Language Understanding，簡稱NLU)，後者稱為自然語言生成(Natural Language Generation，簡稱NLG)。因此，NLP大體包括了NLU和NLG兩個部分。因為處理自然語言的關鍵是要讓計算機”理解“自然語言，所以通常把NLU視為NLP，也稱為計算語言學。

NLP融電腦科學、語言學、自動化、數學等為一體，是一門綜合性的科學。因此，這一領域的研究將涉及自然語言，即人們日常使用的語言，所以它與語言學的研究有著密切的聯絡，但又有重要的區別。NLP並不是一般地研究自然語言，而是研製能有效地實現自然語言通訊的計算機系統，特別是其中的軟體系統;因而它是電腦科學的一部分。可以說，NLP是電腦科學、語言學、AI等關注計算機和自然語言之間的相互作用的領域。目前，人們對AI的需求也從計算智慧、感知智慧到了以NLP為代表的認知智慧的層面。沒有成功的NLP，就不會有真正的認知智慧。因此，NLP被視為AI極具吸引力的研究領域以及AI必須優先解決的核心問題之一，也被喻為AI皇#冠上的明珠。

由於AI包括感知智慧(比如影像識別、語言識別和手勢識別等)和認知智慧(主要是語言理解知識和推理)，而語言在認知智慧起到最核心的作用。如果能把語言問題解決了，AI最難的部分也就基本解決了。美國微軟公司創始人比爾·蓋茨先生曾經表示，”語言理解是人工智慧領域皇#冠上的明珠“。前微軟公司全球執行副總裁沈向洋先生也在公開演講時說：“懂語言者得天下……下一個十年，人工智慧的突破在自然語言的理解……人工智慧對人類影響最為深刻的就是自然語言方面”。由於理解自然語言需要關於外在世界的廣泛知識以及運用操作這些知識的能力，所以NLP也被視為解決AI完備(AI-complete)的核心問題之一。可以說，NLP目前是AI領域的關鍵核心技術，對它的研究也是充滿魅力和挑戰的。

NLP涉及的領域較多，主要包括機器翻譯、語義理解和對話系統等。它目前面臨四大挑戰：一是在詞法、句法、語義、語用和語音等不同層面存在不確定性;二是新的詞彙、術語、語義和語法導致未知語言現象的不可預測性;三是資料資源的不充分使其難以覆蓋複雜的語言現象;四是語義知識的模糊性和錯綜複雜的關聯性難以用簡單的數學模型描述，語義計算需要引數龐大的非線性計算。例如在對話系統中，深度學習目前已成為對話系統的一項基本技術;神經網路被應用於傳統任務導向型對話系統的不同組成部分。近年來，端到端的框架不僅在非面向任務的聊天對話系統中流行，在面向任務的對話系統中也逐步流行起來，但是仍遠非完美。又如在語義識別方面，需要對句法進行剖析，因此剖析在對話系統、資訊抽取、語法檢查中都起著非常重要的作用。

最早的NLP研究工作是機器翻譯。1949年，美國知名科學家沃倫·韋弗先生首先提出了機器翻譯設計方案。1954年，基於韋弗“翻譯即解碼”的機譯思想，喬治敦大學進行了著名的“喬治敦實驗”——利用IBM-701型計算機首次完成了英俄文字的自動翻譯;這一實驗的成功標誌著機器翻譯正式登上歷史舞臺。20世紀60年代，許多科學家對機器翻譯曾有大規模的研究工作，耗費了鉅額費用;但他們顯然是低估了自然語言的複雜性，語言處理的理論和技術均不成熟，所以進展不大。當時的主要做法是儲存兩種語言的單詞、短語對應譯法的大辭典，翻譯時一一對應，技術上只是調整語言的同條順序。但日常生活中語言的翻譯遠不是如此簡單，很多時候還要參考某句話前後的意思，需要上下文聯絡起來才能正確翻譯——這就是機譯技術難度高之所在。

大約20世紀90年代開始，NLP領域發生了巨大的變化。這種變化有兩個明顯的特徵：(1)對系統的輸入，要求研製的NLP系統能處理大規模的真實文字，而不是如以前的研究性系統那樣，只能處理很少的詞條和典型句子。只有這樣，研製的系統才有真正的實用價值。(2)對系統的輸出，鑑於真實地理解自然語言是十分困難的，對系統並不要求能對自然語言文字進行深層的理解，但要能從中抽取有用的資訊。同時，由於強調了“大規模”和“真實文字”，所以下面兩方面的基礎性工作也得到了重視和加強：(1)大規模真實語料庫的研製。大規模的經過不同深度加工的真實文字的語料庫，是研究自然語言統計性質的基礎;如果沒有這樣的語料庫，統計方法只能是無源之水。(2)大規模、資訊豐富的詞典的編制工作。因此規模為幾萬，十幾萬，甚至幾十萬詞，含有豐富的資訊(如包含詞的搭配資訊)的計算機可用詞典對NLP的重要性是很明顯的。

系統的輸入與輸出這兩個特徵在NLP的諸多領域都有所體現，其發展直接促進了計算機自動檢索技術的出現和興起。實際上，隨著計算機技術的不斷髮展，以海量計算為基礎的機器學習、資料探勘、資料建模等技術的表現也愈發優異。NLP之所以能夠度過“寒冬”，再次發展，也是因為電腦科學與統計科學的不斷結合，才讓人類甚至機器能夠不斷從大量資料中發現“特徵”並加以學習。不過要實現對自然語言真正意義上的理解，僅僅從原始文字中進行學習是不夠的，我們還需要新的方法和模型。

目前存在的問題主要有兩個方面：一方面，迄今為止的語法都限於分析一個孤立的句子，上下文關係和談話環境對本句的約束和影響還缺乏系統的研究，因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題，尚無明確規律可循，需要加強語義學和語用學的研究才能逐步解決。另一方面，人理解一個句子不是單憑語法，還運用了大量的有關知識，包括生活知識和專門知識，這些知識無法全部貯存在計算機裡。因此一個書面理解系統只能建立在有限的詞彙、句型和特定的主題範圍內;計算機的貯存量和運轉速度大大提高之後，才有可能適當擴大範圍。

由於語言工程、認知科學等主要侷限於實驗室，目前來看資料處理可能是NLP應用場景最多的一個發展方向。實際上，自從進入大資料時代，各大平臺就沒有停止過對使用者資料的深度挖掘。要想提取出有用的資訊，僅提取關鍵詞、統計詞頻等是遠遠不夠的，必須對使用者資料(尤其是發言、評論等)進行語義上的理解。另外，利用離線大資料統計分析的方法進行NLP任務的研究是目前非常有潛力的一種研究正規化，尤其是谷歌、推特、百度等大公司在這類應用上的成功經驗，引領了目前大資料研究的浪潮。

NLP是為各類企業及開發者提供的用於文字分析及挖掘的核心工具，已經廣泛應用在電商、金融、物流、醫療、文化娛樂等行業客戶的多項業務中。它可幫助使用者搭建內容搜尋、內容推薦、輿情識別及分析、文字結構化、對話機器人等智慧產品，也能夠透過合作，定製個性化的解決方案。由於理解自然語言，需要關於外在世界的廣泛知識以及運用操作這些知識的能力，所以NLP也被視為解決強AI的核心問題之一，其未來一般也因此密切結合AI發展，尤其是設計一個模仿人腦的神經網路。

訓練NLP文字解析AI系統需要採集大量多源頭資料集，對科學家來說是一項持續的挑戰：需要使用最新的深度學習模型，模仿人類大腦中神經元的行為，在數百萬甚至數十億的註釋示例中進行訓練來持續改進。當下一種流行的NLP解決方案是預訓練，它改進了對未標記文字進行訓練的通用語言模型，以執行特定任務;它的思想就是，該模型的引數不再是隨機初始化，而是先有一個任務進行訓練得到一套模型引數，然後用這套引數對模型進行初始化，再進行訓練，以獲得更好的預測性見解。

我們目前已進入一個以網際網路為主要標誌的海量資訊時代，而這些海量資訊大部分是以自然語言表示的。一方面，有關的海量資訊可為計算機學習自然語言提供更多的“素材”;另一方面，這也為NLP提供更加寬廣的應用舞臺。例如，作為NLP的重要應用，搜尋引擎逐漸成為人們獲取資訊的重要工具，出現了以谷歌、百度等為代表的搜尋引擎巨頭;機器翻譯也從實驗室走入尋常百姓家;基於自然語言處理的中文輸入法(如搜狗、微軟、谷歌等輸入法)成為計算機使用者的必備工具;帶有語音識別的計算機和手機也正大行其道，協助使用者更有效地生活、工作和學習。

現在，NLP領域已經有了大量的人工標註知識，而深度學習可以透過有監督學習得到相關的語義知識，這種知識和人類總結的知識應該存在某種對應關係，尤其是在一些淺層語義方面。因為人工標註，本質上已經給深度學習提供了學習的目標;只是深度學習可以不眠不休地學習，這種逐步靠攏學習目標的過程，可能遠比人類總結過程來得更快、更好。這一點，從谷歌公司旗下DeepMind研究團隊開發的圍棋軟體AlphaGo短時間內連勝兩位人類圍棋高手的事實，似乎能夠得到驗證。

深度學習在NLP中的應用非常廣泛，可以說橫掃NLP的各個應用，從底層的分詞、語言模型、句法分析、詞性標註、語音識別等到高層的語義理解、語用闡釋、對話管理、知識問答等方面都幾乎都有深度學習的模型，並且取得了不錯的效果。有關研究已從傳統的機器學習演算法轉變成更有表現力的深度學習模型，如卷積神經網路和迴歸神經網路。不過，目前的深度學習技術還不具備理解和使用自然語言所必需的概念抽象和邏輯推理能力，這方面還有待今後進一步的研究。

網際網路搜尋引擎已經有一段時間讓人們使用會話語言和術語來線上搜尋事物。現在，谷歌公司的雲端硬碟使用者已經可以使用這一功能。使用者可以搜尋儲存在谷歌雲端硬碟中的檔案和內容，就像使用谷歌搜尋提供的對雲端硬碟內建NLP的新支援一樣。該功能使使用者可以使用通常用片語表達的查詢以及在實際對話中將要使用的查詢來更輕鬆地找到所需的內容。谷歌公司在線上和移動搜尋、移動應用程式以及GoogleTranslate等服務中廣泛使用NLP;該公司在這一領域的研究是為提高機器閱讀和理解人類語言能力所做的更廣泛努力的一部分。隨著谷歌調整其演算法，NLP應該會隨著時間的推移變得更好。

英國劍橋量子計算公司(CQC)最近宣佈，他們利用自然語言的“固有量子”結構，開闢了一個全新的可能應用領域。其透過將語法句子翻譯成量子線路，然後在量子計算機上實現生成的程式，並實際執行問答。這是第一次在量子計算機上執行NLP。透過使用CQC的一流的、平臺無關的可重定目標編譯器t|ket??，這些程式在IBM量子計算機上成功執行並得到結果，整個突破朝著實現“意義感知”和“語法知悉”的NLP方向邁出了有意義的一大步--這是計算機時代早期以來電腦科學家及計算語言學家追尋的夢想。

美國哈佛大學醫學院的研究人員藉助NLP技術日前開發出一種工具，可以評估新冠肺炎(COVID-19)患者的病例、社交媒體和健康衛生資料。他們率先努力透過使用機器學習技術檢視來自各種來源的資料和資訊(包括患者記錄、社交媒體和公共衛生資料)來尋找新冠肺炎病毒的解決方案。藉助NLP工具，他們還可以搜尋有關新冠肺炎病毒的線上資訊，並瞭解爆發的當前位置。另外，研究人員還利用NLP技術對新冠肺炎、藥物和疫苗等密集展開研究，同時包括臨床診斷與治療以及流行病學研究等。

中國阿里達摩院的NLP研究團隊最近提出最佳化模型Struct BERT，能讓機器更好地掌握人類語法，加深對自然語言的理解。使用該模型好比給機器內建一個“語法識別器”，使機器在面對語序錯亂或不符合語法習慣的詞句時，仍能準確理解並給出正確的表達和回應，大大提高機器對詞語、句子以及語言整體的理解力。這一技術已廣泛使用於阿里旗下阿里小蜜、螞蟻金服、優酷等業務。阿里達摩院的語言模型和閱讀理解技術也被用於行業賦能，推進AI技術在醫療、電力、金融等行業的落地。據悉，StructBERT模型最近被評為全球效能最強的NLP系統。

根據市場分析機構Mordor Intelligence的一份報告，2019年全球NLP市場價值為109億美元，預計到2025年將達到348億美元，複合年增長率為21.5%。該報告指出，在過去的幾年中，深度學習架構和演算法在市場格局中取得了令人矚目的進步，而語音分析解決方案正在主導著這一市場，因為傳統的基於文字的分析已不足以處理複雜的業務問題。

總之，隨著網際網路的普及和海量資訊的湧現，作為AI領域的研究熱點和關鍵核心技術，NLP正在人們的生活、工作、學習中扮演著越來越重要的角色，並將在科技進步與社會發展的過程中發揮越來越重要的作用。

文/林峰、於利(作者單位分別為美國波士頓大學工學院、日本名古屋大學理學部)

人工智慧的研究熱點:自然語言處理

相關文章