所謂自然語言處理，即NLP，就是通過用計算機來處理人類的語言、文字，從而可以代替人類做一些文書類的工作，例如諮詢、售後、海量資料處理以及公文閱讀與處理等。基於此，NLP領域延伸處理種類繁多的任務，這裡我總結了文字向量化、序列標註任務、文字分類、資訊提取、以及複雜應用場景五大類NLP任務，做一個介紹。

作者&編輯 | 小Dream哥

1 文字向量化

文字的向量化可謂是NLP進入深度學習時代的標誌。所謂文字的向量化（embedding），就是將文字用一定維度的向量來表示，也可以理解為文字的數值化。通過embedding，文字的語義、句法等特徵得以表徵，便於下游模型的處理。

例如，“人/如果/沒有/夢想/，/跟/鹹魚/還有/什麼/差別”，向機器學習模型直接輸入字串顯然是不明智的，不便於模型進行計算和文字之間的比較。那麼，我們需要一種方式來表示一個文字，這種文字表示方式要能夠便於進行文字之間的比較，計算等。最容易想到的，就是對文字進行向量化的表示。例如，根據語料庫的分詞結果，建立一個詞典，每個詞用一個向量來表示，這樣就可以將文字向量化了。

詞的向量化，最早嘗試是詞袋模型，後來證明，詞袋模型無法表徵詞序特徵，並且會帶來維度災難；Yoshua Bengio在2003年《A Neural Probabilistic Language Model》一文中提出了一種神經網路的方法，用於語言模型的計算， 詞向量作為副產品後來卻引起了業界的關注。2008年Collobert和Weston展示了 第一個能有效利用預訓練詞嵌入的研究工作，他們提出的神經網路架構，構成了當前很多方法的基礎。這一項研究工作還率先將詞嵌入作為 NLP 任務的高效工具。不過詞嵌入真正走向NLP主流還是Mikolov 等人在 2013 年做出的研究《Distributed Representations of Words and Phrases and their Compositionality》。Mikolov 等研究者在這篇論文中提出了連續詞袋模型CBOW和 Skip-Gram 模型，通過引入負取樣等可行性的措施，這兩種方法都能 學習高質量的詞向量。基於此，ELMO提出了一種相同詞能夠根據語境生成不同詞向量的模型。高質量的詞向量的獲得，結合LSTM、CNN等神經網路抽取器，使得NER，文字分類以及資訊抽取等任務獲得了長足的進步。

此外，基於詞向量的思想，從2018年開始，NLP中預訓練模型開始流行，BERT、GPT、ALBERT以及XLNET等模型不斷刷榜。

筆者曾經寫過的詞向量即預訓練語言模型相關的文章有：

【NLP-詞向量】詞向量的由來及本質

【NLP-詞向量】從模型結構到損失函式詳解word2vec

【NLP】聊聊NLP中的attention機制

【NLP】理解NLP中網紅特徵抽取器Tranformer

【NLP】深入淺出解析BERT原理及其表徵的內容

【NLP】GPT：第一個引入Transformer的預訓練模型

【NLP】XLnet：GPT和BERT的合體，博採眾長，所以更強

2 序列標註任務

序列標註任務是NLP裡非常基礎和重要的任務，例如分詞、NER等都屬於序列標註任務，包括一些預測span的閱讀理解任務也可歸於此列。

分詞通常是中文自然語言處理的第一步（隨著深度學習模型表徵能力越來越強，慢慢證明，分詞未必是必要的）；NER是非常重要和基礎的資訊抽取任務，在非常多的場景中都需要用到，例如聊天機器人中的槽位抽取、文字結構化過程中的實體抽取等等。

早期的序列標註任務，例如分詞，NER等主要是用HMM、CRF等機器學習模型；隨著深度學習的興起，LSTM+CRF變成序列標註任務的主流方法；當然，因為LSTM的若干缺點，不少NLP的從業者堅持使用CNN，因而基於膨脹卷積的序列標註模型得以提出。隨著transformer的提出，利用BERT等預訓練模型做NER這類任務開始變得流行，特別是抽取一些相對較長和複雜的實體，例如地址等。需要特別提出的是，有些情況下，正則匹配也是實體抽取的一種有效手段，可作為補充，例如時間實體等。

筆者曾經寫過的序列標註相關的文章有：

【NLP-NER】什麼是命名實體識別？

【NLP-NER】命名實體識別中最常用的兩種深度學習模型

【NLP-NER】如何使用BERT來做命名實體識別

【NLP實戰系列】Tensorflow命名實體識別實戰

【每週NLP論文推薦】 NLP中命名實體識別從機器學習到深度學習的代表性研究

3 文字分類

文字分類是一個不難理解的概念，即通過計算機對輸入文字進行分類，例如判斷“你真是個帥哥啊”這句話是褒義還是貶義。文字分類的應用場景很多，例如情感分類、機器人中的意圖識別等。

聽上去，分類問題似乎是個不難解決的問題，實際上文字分類有它的難度。當類別非常多或者類別與類別之間差異很小時，文字分類就開始變得困難；再者，有時需要考慮額外特徵才能分類正確，例如常常需要根據說話者語氣，才能判斷“你真是個帥哥啊”這句話是諷刺還是真心的讚美。

早期有一些基於傳統機器學習的文字分類，例如基於某種詞語特徵的的貝葉斯模型，SVM分類器等。

隨著深度學習的發展，LSTM+softmax/CNN+softmax模型變成了一種非常流行的文字分類架構，基於此Fasttext、textCNN等便捷高效的開源文字分類工具也開始流行。此外，結合Attention等技巧與概念能夠一定程度的提高模型的效果。

文字分類還有另外一種模式，即通過將文字向量化，再通過聚類獲得類別，NLTK等開源NLP工具都有便捷的Doc2vec API。如果覺得效果不好，可以試試BERT的【CLS】向量。此外，還可以增加TF-IDF模組，構建更有表達能力的DocVec。

筆者曾經寫過的文字分類相關的文章有：

【NLP實戰系列】樸素貝葉斯文字分類實戰

【NLP實戰】基於ALBERT的文字相似度計算

4 資訊提取任務

資訊提取(IE)的目標是將文字資訊轉化為結構化資訊，起初用於定位自然語言文件中的特定資訊。廣泛的看，資訊提取其實是一個非常寬泛的概念，從文字提出感興趣的內容就可以稱為資訊提取。在NLP中常常用實體抽取、關係抽取以及事件抽取等手段進行資訊抽取。

實體抽取是序列標記問題，上面已經介紹過，關係抽取以及事件抽取則通常轉化為分類的任務。關係抽取常常需要先確認subject以及object。所以，關係抽取任務常常伴隨著實體抽取的要求。

早期，資訊提取多使用正則和傳統的機器學習方法。隨著深度學習的快速發展，資訊提取技術也開始迅速發展。實體抽取與關係抽取從Pipline的方式進化到end-to-end的方式。使用的特徵抽取器也逐步進化，從LSTM/CNN到transformer。需要特別提出的是，BERT在資訊抽取方面表現出色，基於BERT和閱讀理解任務來做資訊抽取，是一種非常別緻的方式。

筆者曾經寫過的資訊抽取相關的文章有：

【文字資訊抽取與結構化】目前NLP領域最有應用價值的子任務之一

【文字資訊抽取與結構化】詳聊文字的結構化【上】

【文字資訊抽取與結構化】詳聊文字的結構化【下】

【文字資訊抽取與結構化】詳聊如何用BERT實現關係抽取

【每週NLP論文推薦】掌握實體關係抽取必讀的文章

5 場景任務

此外，NLP還有一些複雜的應用場景，他們可能是多種NLP技術的應用和綜合，例如聊天機器人、知識圖譜、文字搜尋以及文字推薦系統等。

搜尋是NLP技術最早得到大規模應用的技術，例如百度搜尋、知乎話題搜尋以及各大網際網路公司的query搜尋技術，都涉及到語義匹配或文字分類技術。此外，大型的搜尋引擎，知識圖譜的搭建是必須的。

推薦系統在一定層面來說是跟搜尋場景相反的。搜尋是基於使用者的意圖，在文字庫中尋找匹配項；推薦則相反，通常基於積累的使用者資訊，給使用者推薦可能感興趣的內容。推薦系統常常涉及使用者畫像、標籤定義等過程，需要一定程度的依賴NLP技術。

聊天機器人是目前NLP技術應用最多的場景，基於NLP技術構建一個能夠替代客服、銷售、辦公文員是這一任務的終極目標。目前，聊天機器人已經以各種形態出現在人們面前，有站在銀行門口迎接顧客的迎賓機器人，有放在臥室床頭的智慧音響，有呆在各個APP首頁的助手機器人等等。在聊天機器人中，運用了文字分類、語義匹配、對話管理、實體識別等大量的NLP技術。要做好是一件難度大、超複雜的任務。

知識圖譜是AI時代一個非常重要基礎設施，大規模結構化的知識網路的搭建，能夠重塑很多的智慧場景。

關於搜尋和推薦系統我們會在後面的系列文章中進行介紹，關於知識圖譜和聊天機器人我們已經寫了大量的文章進行介紹，感興趣的同學可以看看，：

【NLP-ChatBot】我們熟悉的聊天機器人都有哪幾類？

【NLP-ChatBot】搜尋引擎的最終形態之問答系統（FAQ）詳述

【NLP-ChatBot】能幹活的聊天機器人-對話系統概述

【每週NLP論文推薦】對話管理中的標誌性論文介紹

【每週NLP論文推薦】開發聊天機器人必讀的重要論文

【知識圖譜】人工智慧技術最重要基礎設施之一，知識圖譜你該學習的東西

【知識圖譜】知識表示：知識圖譜如何表示結構化的知識？

【知識圖譜】如何構建知識體系：知識圖譜搭建的第一步

【知識圖譜】獲取到知識後，如何進行儲存和便捷的檢索？

【知識圖譜】知識推理，知識圖譜裡最“人工智慧”的一段

https://www.toutiao.com/i6802764751043559940/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2679775/，如需轉載，請註明出處，否則將追究法律責任。

「NLP」一文彙總自然語言處理主要研究方向

1 文字向量化

2 序列標註任務

3 文字分類

4 資訊提取任務

5 場景任務

相關文章