自然語言處理NLP(四)

村雨1943發表於2018-10-03

實體識別

實體識別–分塊型別:
  • 名詞短語分塊;
  • 標記模式分塊;
  • 正規表示式分塊;
分塊的表示方法:標記和樹狀圖;
分塊器評估;
命名實體識別;
  • 命名實體定義:指特定型別的個體,是一些確切的名詞短語,如組織、人、日期等;
  • 命名實體識別定義:指通過識別文字中所提及的命名實體,然後確定NE的邊界和型別;
命名實體關係提取;

文法分析

  • 文法定義: 即就是文章的書寫規則,一般用來指以文字、詞語、短句、句子編排而成的完整語句和文章的合理性組織;
  • 文法用途:
    • 1、效能超越n-grams;
    • 2、確定句子成分結構;
形式語法:一個四元組G=(N, ∑, P, S),各個符號代表的意義如下:
  • N:非終結符的有限集合(有事也稱為變數級戒句法種類集);
  • ∑:終結符號的有限集合;
  • V:總詞彙表,N∪∑;
  • P:一組重寫規則的有限集合,P={α→β},其中α,β是V種元素所構成的串,α種至少應該含有一個非終結符號;
  • S:S∈N,叫做句子的符戒初始符;
上下文無關文法:
  • 解析器:
    • 定義:根據文法產生式處理輸入的矩陣,同時建立一個或多個符號文法的組成結構;
    • 分類:
      • 遞迴下降解析器:自上而下模式;
      • 移近-規約解析器:自下而上模式;
      • 左角落解析器:自上而下和自下而上兩種模式相結合;
    • 遞迴下降和左角落解析都存在一定的缺陷,因此可以才用動態規劃的方法進行解析;
依存關係與依存文法:
  • 依存文法:關注詞與其他詞之間的關係;
  • 依存關係:中心詞與其他從屬直接的二元非對稱關係;

當前的一些語法困境

  • 語言資料與無限可能性;
  • 句子構造;
  • 句子歧義問題;

自然語言理解

  • 智慧問答系統;
  • 一階邏輯;
  • 補充運算;
  • 句子語義理解;
  • 段落語義理解;

圖靈測試

阿蘭·圖靈與1950年提出,測試在測試者和被測試者相互隔開的情況下,通過一些簡單的裝置向被測試者隨意提問。通過一些問題之後,若被測試者的答覆有超過30%的部分無法讓測試者確認出是人還是機器的回答,則此時這臺機器通過測試, 且被認為具有人工智慧;

命題邏輯

一階邏輯
  • 語法
    • 獨立變數;
    • 獨立常量;
    • 帶不同引數的謂詞;
    • 非邏輯常量;
    • 邏輯常量;
    • 存在量詞;
    • 全稱量詞;
  • 採取約定:<en,t>是由n個e型別的引數所組成而產生一個型別為t的表示式的謂詞的型別,此類情況下,則稱n為謂詞元數;

語句的語義

  • 組合原則:整體含義是部分含義與他們的句法相結合方式的函式;

語料庫結構

TIMIT的結構
  • 內容覆蓋:方言,說話者,材料;
TIMIT的設計特點
  • 包含語音與字形標註層;
  • 在多個維度的變化與方言地區和二母音覆蓋範圍中找到一個平衡點;
  • 將原始語音學時間作為錄音來捕捉和標註來捕捉之間的區別;
  • 層次結構清晰,結構是樹狀結構,使用時目的性;
TIMIT的基本資料型別
  • 詞典
  • 文字

語料庫的生命週期

  • 建立語料庫的方案
    • 研究過程中逐步形成;
    • 實驗研究過程中收集;
    • 特定語音的參考語料;
  • 質量控制
    • Kappa係數:衡量兩個人的判斷類別,然後修正其期望一致性,越大一致性越好;
    • windowdiff打分器:衡量兩個句子分詞的一致性;
  • 維護與演變

資料採集

採集方式
  • 網上獲取;
  • 文書處理器檔案獲取;
  • 電子表格和資料庫中獲取;
  • 通過資料格式轉換獲取;
  • 使用Toolbox資料;
標註層
  • 分詞;
  • 斷句;
  • 分段;
  • 詞性;
  • 句法結構;
  • 淺層語義;
  • 對話與段落;

相關文章