NLPIR語義分析系統不斷提高中文分詞準確率

ljrj123發表於2019-11-01

NLPIR語義分析系統不斷提高中文分詞準確率

 

計算機的發展帶來了各種資料積累,做好文字分析對發展企業本身業務,調整企業發展模式,樹立正確企業定位都將產生很大的影響。隨著文字分析應用範圍的不斷增加,文字分析研究熱度不斷上升,作為文字分析中最關鍵的環節,提高中文分析準確率也成為提升文字分析技術的重要方面。

文字分析的應用範疇和應用模式在增加,其研究的準確度也在不斷提升。NLPIR-Parser大資料語義智慧分析平臺經過20餘年的積累,融合了網路資料採集、自 然語言處理、文字挖掘與文字檢索等核心技術,完成了從資料的採集預處理、自然語言處理到文字挖掘、資訊檢索再到視覺化呈現、結果匯出等全鏈條各個環節的語義分析工具。

NLPIR大資料語義智慧分析平臺十三大功能:

 

精準採集:對境內外網際網路海量資訊實時精準採集,有主題採集(按照資訊需求的主題採集)與站點採集兩種模式(給定網址列表的站內定點採集功能)。

文件轉化:對doc、excel、pdf與ppt等多種主流文件格式,進行文字資訊轉化,效率達到大資料處理的要求。

新詞發現:從文字中挖掘出新詞、新概念,使用者可以用於專業詞典的編撰,還可以進一步編輯標註,匯入分詞詞典中,提高分詞系統的準確度,並適應新的語言變化。

批次分詞:對原始語料進行分詞,自動識別人名地名機構名等未登入詞,新詞標註以及詞性標註。並可在分析過程中,匯入使用者定義的詞典。

語言統計:針對切分標註結果,系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計。針對常用的術語,會自動給出相應的英文解釋。

 

文字聚類:能夠從大規模資料中自動分析出熱點事件,並提供事件話題的關鍵特徵描述。同時適用於長文字和簡訊、微博等短文字的熱點分析。

文字分類:根據規則或訓練的方法對大量文字進行分類,可用於新聞分類、簡歷分類、郵件分類、辦公文件分類、區域分類等諸多方面。

摘要實體:對單篇或多篇文章,自動提煉出內容摘要,抽取人名、地名、機構名、時間及主題關鍵詞;方便使用者快速瀏覽文字內容。

 

智慧過濾:對文字內容的語義智慧過濾審查,內建國內最全詞庫,智慧識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。

情感分析:針對事先指定的分析物件,系統自動分析海量文件的情感傾向:情感極性及情感值測量,並在原文中給出正負面的得分和句子樣例。

文件去重:快速準確地判斷檔案集合或資料庫中是否存在相同或相似內容的記錄,同時找出所有的重複記錄。

全文檢索:支援文字、數字、日期、字串等各種資料型別,多欄位的高效搜尋,支援AND/OR/NOT以及NEAR鄰近等查詢語法,支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。

編碼轉換:自動識別內容的編碼,並把編碼統一轉換為其他編碼。

NLPIR平臺為一般使用者提供了本地化部署的客戶端實現語義智慧分析的全鏈條一站式服務,也為軟體工程師提供了二次開發介面。現已服務了全球40萬家機構使用者和百餘家高校科 研院所,為自然語言的研究者與工程應用提供了便利的技術支援,運用人工智慧技術和資料分析技術,不斷提高資訊管理領域知識處理的有效性。

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2662269/,如需轉載,請註明出處,否則將追究法律責任。

相關文章