《NLP漢語自然語言處理原理與實踐》學習四

一釐米1992發表於2018-09-14

語法組塊標註

法國的著名語言學家Steven Abney最早提出了一個完整的組塊(Chunk)描述體系,並給出了組塊的定義。他把組塊定義為句內的一個非遞迴的核心成分。這種成分包含核心成分的前置修飾成分,而不包含後置附屬結構。同時,Abney還提出了組塊解析的策略,通過引進句法塊(Chunk)概念,他將句法分析問題分為如下三個階段:

  • 塊識別:利用塊識別器快速識別出句子中所有的塊。

  • 塊內結構分析:對每個塊內部的成分賦予合適的句法結構。

  • 塊間關係分析:利用塊聯結器(Attacker)將各個不同的塊組合成完成的句法機構樹。

語義組塊一方面由於對不同的子問題的準確功能定位,可以獨立地選用不同的語言模型和搜尋策略加以分析處理;另一個方面。通過在塊層次上進行自底向上的塊間關係分析和自頂向下的塊結構分析,可以大大提高整體分析效率,達到降低句子分析難度的目的。語義組塊的另一個用處在於淺層語法分析,即將語義角色標註的工作建立在淺層語法分析之上,不再使用句法解析樹,而是利用分析出來的語法組塊直接進行語義角色標註,希望利用相對更準確的組塊分析結果提升語義角色標註準確率。最常用的一個領域是,語義組塊用於知識庫的實體關係抽取。

 並非所有的短語型別都能作為語義組塊。剩下的短語型別包括:ADJP、ADVP、DNP、DP、DVP、LCP、NP、PP、PRN、QP、和VP。

  1. NP(名詞短語):賓州樹庫中的名詞短語是指中心詞為名詞所構成的短語,其語法功能相當於名詞性成分,一般可以在句子zho充當主語、賓語、定語等。NP是NLP組塊分析中最為複雜的一種結構。從語法的角度來講,該結構具有兩種含義,一種是值按句法成分構成的短語;另一種是指知識庫中的實體和屬性,這種組塊稱為baseNP。

  2. VP(動詞短語):是以動詞為中心,與其修飾、限定或並列成分共同構成的一種語義組塊,除中心動詞表達的行為之外,其修飾和限定成分更明確和具體化動作的語義。

  3. QP(數詞短語):由數量詞構成的短語結構。

  4. DP(限定詞短語):一般用於修飾NP或限定QP,可以作為複合NP子結構。

  5. ADJP(形容詞短語):其所修飾的名詞中心語總是要先投射成一個NP。

  6. DNP:由多種型別的短語加上(DEG的)構成。它們總是出現在NP的上下文中。(DEG的)出表示它前面的短語為NP的修飾語之外,沒有其他作用。DNP常被看作一種複合的NP結構。

  7. ADVP(副詞短語):常用作動詞的修飾語。

  8. PP(介詞短語)

  9. LCP:處所詞為中心語的短語。

語義塊的抽取

語義塊識別的最常用方法是條件隨機場(Conditional Random Fields,CRF)。使用CRF進行語義塊的識別,語料一般使用Penn TreeBank的CTB樹庫語聊。使用CRF來識別語義組塊,需要通過如下三個階段完成:

  • 使用Penn TreeBank樹庫中的語料從樹狀結構變為序列結構

  • 使用CRF演算法對製作好的語料進行訓練、生成模型

  • 使用訓練的結果,測試組塊標註。

相關文章