初學者 | NLP相關任務簡介

AIBigbull2050發表於2019-08-30

本文根據自己的學習以及查閱相關資料的理解總結,簡要的介紹一下自然語言處理(nlp)一些相關技術以及相關任務,nlp技術包括基礎技術和應用技術。後續會抽空繼續分專題完善這一個系列。限於作者水平有限,其中難免有錯漏之處,歡迎讀者斧正。

發展

一般認為1950 年圖靈提出著名的“圖靈測試”是自然語言處理思想的開端。20 世紀 50 年代到 70 年代自然語言處理主要採用基於規則的方法。基於規則的方法不可能覆蓋所有語句,且對開發者的要求極高。這時的自然語言處理停留在理性主義思潮階段。

70 年代以後隨著網際網路的高速發展,語料庫越來越豐富以及硬體更新完善,自然語言處理思潮由理性主義向經驗主義過渡,基於統計的方法逐漸代替了基於規則的方法。

從 2008 年到現在,由於深度學習在影像識別、語音識別等領域不斷取得突破,人們也逐漸開始引入深度學習來做自然語言處理研究,由最初的詞向量到 2013 年 word2vec,將深度學習與自然語言處理的結合推向了高潮,並且在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。再到最近的emlo、bert等,也許正在揭開下一個篇章。



定義

自然語言是指漢語、英語等人們日常使用的語言,是隨著人類社會發展自然而然的演變而來的語言,不是人造的語言,自然語言是人類學習生活的重要工具。或者說,自然語言是指人類社會約定俗成的,區別於人工語言,如程式設計的語言。

處理包含理解、轉化、生成等過程。自然語言處理,是指用計算機對自然語言的形、音、義等資訊進行處理,即對字(如果是英文即為字元)、詞、句、段落、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。實現人機間的資訊交流,是人工智慧界、電腦科學和語言學界所共同關注的重要問題。所以自然語言處理也被譽為人工智慧的掌上明珠。

可以說,自然語言處理就是要計算機理解自然語言,自然語言處理機制涉及兩個流程,包括自然語言理解和自然語言生成。自然語言理解是指計算機能夠理解自然語言文字的意義,自然語言生成則是指能以自然語言文字來表達給定的意圖。

自然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分為五個層次,可以更好地體現語言本身的構成,五個層次分別是語音分析、詞法分析、句法分析、語義分析和語用分析。

語音分析是要根據音位規則,從語音流中區分出一個個獨立的音素,再根據音位形態規則找出音節及其對應的詞素或詞。

詞法分析是找出詞彙的各個詞素,從中獲得語言學的資訊。

句法分析是對句子和短語的結構進行分析,目的是要找出詞、短語等的相互關係以及各自在句中的作用。

語義分析是指運用各種機器學習方法,學習與理解一段文字所表示的語義內容。 語義分析是一個非常廣的概念。

語用分析是研究語言所存在的外界環境對語言使用者所產生的影響。



基礎技術

基礎技術包括詞法分析、句法分析、語義分析等。

詞法分析(lexical analysis)

詞法分析包括漢語分詞(word segmentation 或 tokenization)和詞性標註(part-of-speech tag)等。

漢語分詞:處理漢語(英文自帶分詞)首要工作就是要將輸入的字串切分為單獨的詞語,這一步驟稱為分詞。

詞性標註:詞性標註的目的是為每一個詞賦予一個類別,這個類別稱為詞性標記。比如,名詞(noun)、動詞(verb)等。

句法分析(syntactic parsing)

句法分析是對輸入的文字句子進行分析得到句子的句法結構的處理過程。最常見的句法分析任務有下列幾種:

短語結構句法分析(phrase-structure syntactic parsing):該任務也被稱作成分句法分析(constituent syntactic parsing),作用是識別出句子中的短語結構以及短語之間的層次句法關係。

依存句法分析(dependency syntactic parsing):作用是識別句子中詞彙與詞彙之間的相互依存關係。

深層文法句法分析:即利用深層文法,例如詞彙化樹鄰接文法(Lexicalized Tree Adjoining Grammar,LTAG、詞彙功能文法(Lexical Functional Grammar,LFG)、組合範疇文法(Combinatory Categorial Grammar,CCG)等,對句子進行深層的句法以及語義分析。

語義分析(Semantic Analysis)

語義分析的最終目的是理解句子表達的真實語義。但是,語義應該採用什麼表示形式一直困擾著研究者們,至今這個問題也沒有一個統一的答案。語義角色標註(semantic role labeling)是目前比較成熟的淺層語義分析技術。

總而言之,自然語言處理系統通常採用級聯的方式,即分詞、詞性標註、句法分析、語義分析分別訓練模型。在使用過程中,給定輸入句子,逐一使用各個模組進行分析,最終得到所有結果。

近年來,研究者們提出了很多有效的聯合模型,將多個任務聯合學習和解碼,如分詞詞性聯合、詞性句法聯合、分詞詞性句法聯合、句法語義聯合等,取得了不錯的效果。


應用技術

另一方面是自然語言處理的應用技術,這些任務往往會依賴基礎技術,包括文字聚類(Text Clustering)、文字分類(Text Classification)、文字摘要(Text abstract)、情感分析(sentiment analysis)、自動問答(Question Answering,QA)、機器翻譯(machine translation, MT)、資訊抽取(Information Extraction)、資訊推薦(Information Recommendation)、資訊檢索(Information Retrieval,IR)等。

因為每一個任務都涉及的東西很多,因此在這裡我簡單總結介紹一下這些任務,等以後有時間(隨著我的學習深入),再分專題詳細總結各種技術。

文字分類:文字分類任務是根據給定文件的內容或主題,自動分配預先定義的類別標籤。包括單標籤分類和多標籤文字分類,。

文字聚類:任務則是根據文件之間的內容或主題相似度,將文件集合劃分成若干個子集,每個子集內部的文件相似度較高,而子集之間的相似度較低。

文字摘要:文字摘要任務是指透過對原文字進行壓縮、提煉,為使用者提供簡明扼要的文字描述。

情感分析:情感分析任務是指利用計算機實現對文字資料的觀點、情感、態度、情緒等的分析挖掘。

自動問答:自動問答是指利用計算機自動回答使用者所提出的問題以滿足使用者知識需求的任務。

機器翻譯:機器翻譯是指利用計算機實現從一種自然語言到另外一種自然語言的自動翻譯。被翻譯的語言稱為源語言(source language), 翻譯到的語言稱作目標語言(target language)。

資訊抽取:資訊抽取是指從非結構化/半結構化文字(如網頁、新聞、論文文獻、微博等)中提取指定型別的資訊(如實體、屬性、關係、事件、商品記錄等),並透過資訊歸併、冗餘消除和衝突消解等手段將非結構化文字轉換為結構化資訊的一項綜合技術。

資訊推薦:資訊推薦據使用者的習慣、 偏好或興趣, 從不斷到來的大規模資訊中識別滿足使用者興趣的資訊的過程。

資訊檢索:資訊檢索是指將資訊按一定的方式加以組織,並透過資訊查詢滿足使用者的資訊需求的過程和技術。

參考:

1.統計自然語言處理

2.中文資訊處理報告-2016

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2655581/,如需轉載,請註明出處,否則將追究法律責任。

相關文章