自然語言(NLP)發展史及相關體系

dicksonjyl560101發表於2019-04-17


自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學、電腦科學、數學於一體的科學。

自然語言(NLP)發展史及相關體系

自然語言發展史(NLP)

(1) 初創期(1947 ~ 1970):計算機問世(1946)的第二年,英國工程師布斯(A.D.Booth)和美國工程師威弗(W.Weaver)最早提出了利用計算機進行自動翻譯。第一代機器翻譯系統設計上的粗糙所帶來的翻譯質量的低劣,最終導致了一些人對機器翻譯的研究失去信心。有些人甚至錯誤地認為機器翻譯追求全自動質量目標是不可能實現的。標誌著機器翻譯的研究就此陷入低谷。

(2) 復甦期(1970 ~ 1976):儘管機器翻譯的研究困難重重,但是法國、日本、加拿大等國仍然堅持機器翻譯的研究。在20 世紀70 年代初期,機器翻譯又出現了復甦的局面。機器翻譯的研究者逐漸認識到機器翻譯過程本身必須保持原語和譯語在語義上的一致,一個好的機器翻譯系統應該把原語的語義準確無誤地在譯語中表現出來。於是,語義分析在機器翻譯中越來越受到重視。

(3) 繁榮期(1976 ~至今):繁榮期最突出的特點是機器翻譯研究走上了實用化的道路,出現了一大批實用化的機器翻譯系統,機器翻譯產品開始進入市場,逐漸由實用化步入商業化。第二代機器翻譯系統以基於轉換的方法為代表,普遍採用以句法分析為主、語義分析為輔的基於規則的方法,採用由抽象的轉換表示的分層次實現策略。

相關體系

自然語言(NLP)發展史及相關體系

1、句法語義分析:針對目標句子,進行各種句法分析,如分詞、詞性標記、命名實體識別及連結、句法分析、語義角色識別和多義詞消歧等。

關鍵字提取:抽取目標文字中的主要資訊,比如從一條新聞中抽取關鍵資訊。主要是瞭解是誰、何時、何地、對誰、做了何事、產生了什麼結果。涉及實體識別、時間抽取、因果關係抽取等技術。

2、文字挖掘:主要包含了對文字的聚類、分類、資訊抽取、摘要、情感分析以及對挖掘的資訊和知識的視覺化、互動式的呈現介面。

3、機器翻譯:將輸入的源語言文字透過自動翻譯轉化為另一種語言的文字。機器翻譯從最早的基於規則到二十年前的基於統計的方法,再到今天的基於深度學習(編解碼)的方法,逐漸形成了一套比較嚴謹的方法體系。

4、資訊檢索:對大規模文件進行索引。可簡單對文件中的詞彙,賦予不同的權重來建立索引,也可以使用演算法來建立更深層的索引。查詢時,首先對輸入進行分析,然後在索引裡面查詢匹配的候選文件,再根據一個排序機制把候選文件排序,最後輸出排序得分最高的文件。

自然語言(NLP)發展史及相關體系

5、問答系統:針對某個自然語言表達的問題,由問答系統給出一個精準的答案。需要對自然語言查詢語句進行語義分析,包括實體 連結 、關係識別,形成邏輯表示式,然後到知識庫中查詢可能的候選答案並透過排序機制輸出最佳答案。

6、對話系統:系統透過多回合對話,跟使用者進行聊天、回答、完成某項任務,主要涉及使用者意圖識別、通用聊天引擎、問答引擎、對話管理系統等技術。此外,為了提現上下文相關,要具備多輪對話能力。同時,為了提現個性化,對話系統還需要基於使用者畫像做個性化回覆。

7、語料庫:語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2641600/,如需轉載,請註明出處,否則將追究法律責任。

相關文章