快速瞭解什麼是自然語言處理

weixin_33763244發表於2017-09-15

快速瞭解什麼是自然語言處理


摘要:自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學、電腦科學、數學等於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯絡,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研製能有效地實現自然語言通訊的計算機系統,特別是其中的軟體系統。因而它是電腦科學的一部分。(本文原創,分享供於學習,轉載標明出處:快速瞭解什麼是自然語言處理

相關文章


【文字處理】自然語言處理在現實生活中運用

【文字處理】多種貝葉斯模型構建及文字分類的實現

【文字處理】快速瞭解什麼是自然語言處理

【文字處理】領域本體構建方法概述

【文字挖掘(1)】OpenNLP:駕馭文字,分詞那些事

【文字挖掘(2)】【NLP】Tika 文字預處理:抽取各種格式檔案內容

【文字挖掘(3)】自己動手搭建搜尋工具

1 計算機對自然語言處理的過程

1.1把需要研究是問題在語言上建立形式化模型,使其可以數學形式表示出來,這個過程稱之為"形式化"

1.2把數學模型表示為演算法的過程稱之為"演算法化"

1.3根據演算法,計算機進行實現,建立各種自然語言處理系統,這個過程是"程式化"

1.4對系統進行評測和改進最終滿足現實需求,這個過程是"實用化"

2 自然語言處理涉及的知識領域

語言學、電腦科學(提供模型表示、演算法設計、計算機實現)、數學(數學模型)、心理學(人類言語心理模型和理論)、哲學(提供人類思維和語言的更深層次理論)、統計學(提供樣本資料的預測統計技術)、電子工程(資訊理論基礎和語言訊號處理技術)、生物學(人類言語行為機制理論)。故其為多邊緣的交叉學科

3 自然語言處理涉及的範圍

3.1語音的自動合成與識別、機器翻譯、自然語言理解、人機對話、資訊檢索、文字分類、自動文摘等等,總之分為四大方向:

  • 語言學方向
  • 資料處理方向
  • 人工智慧和認知科學方向
  • 語言工程方向

3.2也可細分為13個方面

  • 口語輸入語音識別、訊號表示、魯棒的語音識別、語音識別中的隱馬爾科夫模型方法、語言模型、說話人識別、口語理解
  • 書面語輸入文獻格式識別光學字元識別(OCR):印刷體識別/手寫體識別手寫介面手寫文字分析
  • 語言分析理解小於句子單位的處理語法的形式化、針對基於約束的語法編寫的詞表、計算語義學句子建模和剖析技術、魯棒的剖析技術
  • 語言生成句法生成、深層生成
  • 口語輸入技術合成語音技術語音合成的文字解釋口語生成
  • 話語分析與對話:對話建模、話語建模口語對話系統
  • 文獻自動處理文獻檢索、文字解釋:資訊抽取文字內容自動歸納、文字寫作和編輯的計算機支援、工業和企業中使用的受限語言
  • 多語問題的計算機處理機器翻譯人助機譯機助人譯多語言資訊檢索多語言語音識別自動語種驗證
  • 多模態的計算機處理:空間和時間表示方法、文字與影像處理、口語與手勢的模態結合、口語與面部資訊的模態結合:面部運動和語音識別
  • 資訊傳輸和資訊儲存語音壓縮語音品質的提升
  • 自然語言處理中的數學方法統計建模和分類的數學理論數字訊號處理技術、剖析演算法的數學基礎研究、神經網路有限狀態分析技術語音和語言處理中的最優化技術和搜尋技術
  • 語言資源書面語料庫口語語料庫、機器詞典與詞網的建設、術語編撰和術語資料庫網路資料探勘和資訊提取
  • 自然語言處理系統的評測面向任務的文字分析評測機器翻譯系統和翻譯工具的評測、大覆蓋面的自然語言剖析器的評測、語音識別:評估和評測、語音合成評測、系統的可用性和介面的評測、語音通訊質量的評測文字識別系統的評測

 4 自然語言處理的發展的幾個特點

  • 基於句法-語義規則的理性主義方法受到質疑,隨著語料庫建設和語料庫語言學 的崛起,大規模真實文字的處理成為自然語言處理的主要戰略目標。
  • 自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。
  • 統計數學方法越來越受到重視。
  • 自然語言處理中越來越重視詞彙的作用,出現了強烈的"詞彙主義"的傾向。

相關文章