自然語言處理NLP(四)
實體識別
實體識別–分塊型別:
- 名詞短語分塊;
- 標記模式分塊;
- 正規表示式分塊;
分塊的表示方法:標記和樹狀圖;
分塊器評估;
命名實體識別;
- 命名實體定義:指特定型別的個體,是一些確切的名詞短語,如組織、人、日期等;
- 命名實體識別定義:指通過識別文字中所提及的命名實體,然後確定
NE
的邊界和型別;
命名實體關係提取;
文法分析
- 文法定義: 即就是文章的書寫規則,一般用來指以文字、詞語、短句、句子編排而成的完整語句和文章的合理性組織;
- 文法用途:
- 1、效能超越n-grams;
- 2、確定句子成分結構;
形式語法:一個四元組G=(N, ∑, P, S),各個符號代表的意義如下:
- N:非終結符的有限集合(有事也稱為變數級戒句法種類集);
- ∑:終結符號的有限集合;
- V:總詞彙表,N∪∑;
- P:一組重寫規則的有限集合,P={α→β},其中α,β是V種元素所構成的串,α種至少應該含有一個非終結符號;
- S:S∈N,叫做句子的符戒初始符;
上下文無關文法:
- 解析器:
- 定義:根據文法產生式處理輸入的矩陣,同時建立一個或多個符號文法的組成結構;
- 分類:
- 遞迴下降解析器:自上而下模式;
- 移近-規約解析器:自下而上模式;
- 左角落解析器:自上而下和自下而上兩種模式相結合;
- 遞迴下降和左角落解析都存在一定的缺陷,因此可以才用動態規劃的方法進行解析;
依存關係與依存文法:
- 依存文法:關注詞與其他詞之間的關係;
- 依存關係:中心詞與其他從屬直接的二元非對稱關係;
當前的一些語法困境
- 語言資料與無限可能性;
- 句子構造;
- 句子歧義問題;
自然語言理解
- 智慧問答系統;
- 一階邏輯;
- 補充運算;
- 句子語義理解;
- 段落語義理解;
圖靈測試
阿蘭·圖靈與1950年提出,測試在測試者和被測試者相互隔開的情況下,通過一些簡單的裝置向被測試者隨意提問。通過一些問題之後,若被測試者的答覆有超過30%的部分無法讓測試者確認出是人還是機器的回答,則此時這臺機器通過測試, 且被認為具有人工智慧;
命題邏輯
一階邏輯
- 語法
- 獨立變數;
- 獨立常量;
- 帶不同引數的謂詞;
- 非邏輯常量;
- 邏輯常量;
- 存在量詞;
- 全稱量詞;
- 採取約定:<en,t>是由n個e型別的引數所組成而產生一個型別為t的表示式的謂詞的型別,此類情況下,則稱n為謂詞元數;
語句的語義
- 組合原則:整體含義是部分含義與他們的句法相結合方式的函式;
語料庫結構
TIMIT的結構
- 內容覆蓋:方言,說話者,材料;
TIMIT的設計特點
- 包含語音與字形標註層;
- 在多個維度的變化與方言地區和二母音覆蓋範圍中找到一個平衡點;
- 將原始語音學時間作為錄音來捕捉和標註來捕捉之間的區別;
- 層次結構清晰,結構是樹狀結構,使用時目的性;
TIMIT的基本資料型別
- 詞典
- 文字
語料庫的生命週期
- 建立語料庫的方案
- 研究過程中逐步形成;
- 實驗研究過程中收集;
- 特定語音的參考語料;
- 質量控制
- Kappa係數:衡量兩個人的判斷類別,然後修正其期望一致性,越大一致性越好;
- windowdiff打分器:衡量兩個句子分詞的一致性;
- 維護與演變
資料採集
採集方式
- 網上獲取;
- 文書處理器檔案獲取;
- 電子表格和資料庫中獲取;
- 通過資料格式轉換獲取;
- 使用Toolbox資料;
標註層
- 分詞;
- 斷句;
- 分段;
- 詞性;
- 句法結構;
- 淺層語義;
- 對話與段落;
相關文章
- 自然語言處理(NLP)概述自然語言處理
- 自然語言處理(NLP)系列(一)——自然語言理解(NLU)自然語言處理
- 自然語言處理(NLP)簡介 | NLP課程自然語言處理
- 自然語言處理NLP快速入門自然語言處理
- Pytorch系列:(六)自然語言處理NLPPyTorch自然語言處理
- 《NLP漢語自然語言處理原理與實踐》學習四自然語言處理
- 2023nlp影片教程大全 NLP自然語言處理教程 自然語言處理NLP從入門到專案實戰自然語言處理
- 自然語言處理NLP(6)——詞法分析自然語言處理詞法分析
- 自然語言處理(NLP)路線圖 - kdnuggets自然語言處理
- Python自然語言處理實戰(1):NLP基礎Python自然語言處理
- 中文和英文NLP自然語言處理異同點分析自然語言處理
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- NLP神經語言學的12條假設(不是自然語言處理哪個NLP哈)自然語言處理
- 「NLP」一文彙總自然語言處理主要研究方向自然語言處理
- 自然語言處理(NLP)- 一個英文拼寫糾錯系統自然語言處理
- 史丹佛NLP團隊釋出最新自然語言處理Python庫自然語言處理Python
- 自然語言處理NLP(8)——句法分析b:完全句法分析自然語言處理
- Pytext 簡介——Facebook 基於 PyTorch 的自然語言處理 (NLP) 框架PyTorch自然語言處理框架
- HanLP 自然語言處理 for nodejsHanLP自然語言處理NodeJS
- 自然語言處理 NLP 基本概念大全,讓非技術也能看懂 NLP自然語言處理
- 自然語言處理NLP(7)——句法分析a:Chomsky(喬姆斯基)形式文法自然語言處理
- NLP漢語自然語言處理入門基礎知識自然語言處理
- [譯] 自然語言處理真是有趣!自然語言處理
- 自然語言處理:分詞方法自然語言處理分詞
- NLP 與 NLU:從語言理解到語言處理
- 如何將Python自然語言處理速度提升100倍:用spaCy/Cython加速NLPPython自然語言處理
- 什麼是NLP,NLP主要有什麼用,為什麼要學自然語言處理?自然語言處理
- 配置Hanlp自然語言處理進階HanLP自然語言處理
- 自然語言處理的最佳實踐自然語言處理
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- 人工智慧 (06) 自然語言處理人工智慧自然語言處理
- 自然語言處理與情緒智慧自然語言處理
- 精通Python自然語言處理 2 :統計語言建模Python自然語言處理
- 掌握BERT:從初學者到高階的自然語言處理(NLP)全面指南自然語言處理
- 中國語文(自然語言處理)作業自然語言處理
- NLP漢語自然語言處理入門基礎知識介紹自然語言處理
- 自然語言處理中的語言模型預訓練方法自然語言處理模型
- 自然語言處理怎麼最快入門?自然語言處理