怎樣使用NLPIR平臺進行文字分析

ljrj123發表於2019-11-14


自然語言處理是計算機對自然語言 所包含的字形、讀音和含義等資訊進行處理,包括對字、詞、句和篇章的輸入輸 出、識別分析、理解生成等操作和加工,是當前人工智慧研究的核心課題之一。NLPIR大資料語義智慧分析平臺是一個全鏈條的分析工具,今天為大家詳細介紹一下NLPIR平臺的自然語言處理部分的功能。

語言統計   語言統計功能針對切分標註結果,系統可以自動地進行一元詞頻統計、二元 詞語轉移機率統計(統計兩個詞左右連線的頻次即機率)。針對常用的術語,會自 動給出相應的英文解釋。詞頻統計及翻譯分析結果有四個Excel輸出檔案。其中, 一元機率指的是單個詞獨立出現的機率,資訊熵指的是該詞包含的資訊廣度,其 公式為:H(X)=–∑P(X)logP(X)。 n 1

1)按詞頻排序的統計結果檔案

按詞頻排序的統計內容如下,包括:詞語、詞性、詞頻、一元機率、資訊熵 與譯文。

(2) 按字典排序的詞頻統計檔案 輸出到一個名為FreqSortByWord的檔案,按字典排序詞頻統計結果包括:詞 頻統計結果(總詞數與平均頻率)、詞語、詞性、詞頻、一元機率與資訊熵。

(3) Bigrams輸出檔案 輸出到一個名為Bigrams的檔案,Bigrams結果包括:二元詞對總數、前一個詞、 後一個詞、共現頻次與二元詞對資訊熵。共現頻次指的是兩個詞以前後順序同時出 現的頻率,二元詞對資訊熵指的是這兩個詞包含的資訊廣度。

(4) 檔案統計資訊輸出檔案 檔案統計結果包括:文件名、總詞頻、總詞數、使用者詞典總詞頻與使用者詞典 總詞數。

批次分詞

對原始語料進行分詞、自動識別人名地名機構名等未登入詞、新詞標註以及 詞性標註。可在分析過程中匯入使用者定義的詞典。 目前多數的分詞演算法都採用規則和統計相結合的方法,這樣做的目的是為了 降低統計對語料庫的依賴性,可以將已有的詞法資訊進行充分利用,同時還能彌 補規則方法的不足。現在經常使用方法是利用詞典進行初次切分,得出切分結果 後,使用其他的機率統計方法和簡單規則消歧進行未登入詞的識別。NLPIR分詞 法(Chen et al. 2014)利用詞典匹配進行初詞切分,得到詞切分圖後,利用詞頻信 息求詞圖N條最短路徑的N最短路徑法。

新詞發現  

新詞發現模組包括新詞提取與關鍵詞提取兩個功能。 系統可實現對於新詞、關鍵詞提取結果的高維視覺化展示,視覺化形式有三種:文 本格式、二維格式與三維格式。使用者可根據需要直接使用,無須再次設計美化。 新詞發現能從文字中挖掘出具有內涵的新詞、新概念,使用者可以用於專業詞 典的編撰,還可以進一步編輯標註,匯入分詞詞典可提高分詞系統的準確度,並 適應新的語言變化。 關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。

(1) 新詞提取 新詞提取內容包括:詞語、詞性、權重和詞頻統計。本步驟所得到的新詞, 可以作為分詞標註器的使用者詞典匯入,從而使分詞結果更加準確。

(2) 關鍵詞提取 關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。關鍵詞分析內容包括: 詞語、詞性、權重和詞頻統計。系統預設詞彙以權重值高低排序。

NLPIR大資料語義智慧分析平臺為語義分析提供資料和技術支援,在大資料 背景下,可以滿足常見的需求,支援使用者專業詞典與微博分析、支援多種編碼、 多種作業系統、多種開發語言與平臺。一方面為語言處理,提供友好、實用的工 具,另一方面為軟體開發人員和研究人員提供二次開發的介面滿足特定的空間信 息處理和應用程式的需要;同時也為研究者提供統計資料和例項支撐。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2664176/,如需轉載,請註明出處,否則將追究法律責任。

相關文章