怎樣使用NLPIR平臺進行文字分析
自然語言處理是計算機對自然語言 所包含的字形、讀音和含義等資訊進行處理,包括對字、詞、句和篇章的輸入輸 出、識別分析、理解生成等操作和加工,是當前人工智慧研究的核心課題之一。NLPIR大資料語義智慧分析平臺是一個全鏈條的分析工具,今天為大家詳細介紹一下NLPIR平臺的自然語言處理部分的功能。
語言統計 語言統計功能針對切分標註結果,系統可以自動地進行一元詞頻統計、二元 詞語轉移機率統計(統計兩個詞左右連線的頻次即機率)。針對常用的術語,會自 動給出相應的英文解釋。詞頻統計及翻譯分析結果有四個Excel輸出檔案。其中, 一元機率指的是單個詞獨立出現的機率,資訊熵指的是該詞包含的資訊廣度,其 公式為:H(X)=–∑P(X)logP(X)。 n 1
(1)按詞頻排序的統計結果檔案
按詞頻排序的統計內容如下,包括:詞語、詞性、詞頻、一元機率、資訊熵 與譯文。
(2) 按字典排序的詞頻統計檔案 輸出到一個名為FreqSortByWord的檔案,按字典排序詞頻統計結果包括:詞 頻統計結果(總詞數與平均頻率)、詞語、詞性、詞頻、一元機率與資訊熵。
(3) Bigrams輸出檔案 輸出到一個名為Bigrams的檔案,Bigrams結果包括:二元詞對總數、前一個詞、 後一個詞、共現頻次與二元詞對資訊熵。共現頻次指的是兩個詞以前後順序同時出 現的頻率,二元詞對資訊熵指的是這兩個詞包含的資訊廣度。
(4) 檔案統計資訊輸出檔案 檔案統計結果包括:文件名、總詞頻、總詞數、使用者詞典總詞頻與使用者詞典 總詞數。
批次分詞
對原始語料進行分詞、自動識別人名地名機構名等未登入詞、新詞標註以及 詞性標註。可在分析過程中匯入使用者定義的詞典。 目前多數的分詞演算法都採用規則和統計相結合的方法,這樣做的目的是為了 降低統計對語料庫的依賴性,可以將已有的詞法資訊進行充分利用,同時還能彌 補規則方法的不足。現在經常使用方法是利用詞典進行初次切分,得出切分結果 後,使用其他的機率統計方法和簡單規則消歧進行未登入詞的識別。NLPIR分詞 法(Chen et al. 2014)利用詞典匹配進行初詞切分,得到詞切分圖後,利用詞頻信 息求詞圖N條最短路徑的N最短路徑法。
新詞發現
新詞發現模組包括新詞提取與關鍵詞提取兩個功能。 系統可實現對於新詞、關鍵詞提取結果的高維視覺化展示,視覺化形式有三種:文 本格式、二維格式與三維格式。使用者可根據需要直接使用,無須再次設計美化。 新詞發現能從文字中挖掘出具有內涵的新詞、新概念,使用者可以用於專業詞 典的編撰,還可以進一步編輯標註,匯入分詞詞典可提高分詞系統的準確度,並 適應新的語言變化。 關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。
(1) 新詞提取 新詞提取內容包括:詞語、詞性、權重和詞頻統計。本步驟所得到的新詞, 可以作為分詞標註器的使用者詞典匯入,從而使分詞結果更加準確。
(2) 關鍵詞提取 關鍵詞提取能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的 詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。關鍵詞分析內容包括: 詞語、詞性、權重和詞頻統計。系統預設詞彙以權重值高低排序。
NLPIR大資料語義智慧分析平臺為語義分析提供資料和技術支援,在大資料 背景下,可以滿足常見的需求,支援使用者專業詞典與微博分析、支援多種編碼、 多種作業系統、多種開發語言與平臺。一方面為語言處理,提供友好、實用的工 具,另一方面為軟體開發人員和研究人員提供二次開發的介面滿足特定的空間信 息處理和應用程式的需要;同時也為研究者提供統計資料和例項支撐。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2664176/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- NLPIR平臺的文字聚類模組完美契合行業需求聚類行業
- NLPIR大資料平臺的文字資訊提取功能介紹大資料
- NLPIR平臺提供快捷簡便的語義分析工具
- NLPIR平臺實現文字挖掘的一站式應用
- NLPIR文字分析工具的功能和特色介紹
- 大資料分析平臺具備怎樣的功能大資料
- 怎樣修改網站後臺文字?網站
- ActionCable 中怎樣使用 devise 進行驗證dev
- 圖片文字識別工具怎樣進行批次識別圖片?
- RestCloud ETL平臺是怎樣的?RESTCloud
- 怎樣搭建大資料平臺大資料
- 如何使用Photino建立Blazor專案進行跨平臺Blazor
- 怎麼樣使用ip代理進行網頁訪問網頁
- 工業製造業怎樣進行進行智慧、高效的機臺檔案管控?
- 使用 pyautogui 進行跨平臺的 GUI 自動化操作GUI
- 使用Tesseract進行圖片文字識別
- 使用pprof進行效能分析
- 怎麼進行資料分析
- 使用rabbitmq對文字使用tf_idf演算法進行分析的專案記錄MQ演算法
- 自然語言處理功能的全鏈條式集合,NLPIR大資料語義智慧分析平臺自然語言處理大資料
- 生鮮行業怎樣進行妥善的進銷存管理?行業
- NLP入門(十)使用LSTM進行文字情感分析
- 對於某東平臺XX娃娃的使用者體驗進行(嚴肅、限速)資料分析
- 怎麼樣進行貨幣兌換?
- 物聯網路卡平臺該怎樣選擇
- 使用pandas進行資料分析
- 物流平臺如何與電商平臺進行自動化流程管理
- 使用科大訊飛語音轉文字的服務進行電話錄音分析
- API服務平臺,可進行分散式執行API分散式
- 色情/性感如何區分,怎樣的風控能力能防止“平臺兩行淚”?
- 怎樣進行有效微信域名防封
- 儲存伺服器配置怎樣進行?伺服器
- 網付收款碼推廣代理平臺怎麼樣?
- 智慧數字經營平臺怎樣搭建才合理?
- 華納娛樂平臺怎麼樣? ,q-1503964774
- Java如何實現跨平臺?原理是怎樣的?Java
- 在 WSL Ubuntu 上使用 .NET 進行跨平臺開發新手入門Ubuntu
- 汽車異構硬體平臺開發如何進行靜態程式碼分析