NLPIR語義分析系統不斷提高中文分詞準確率

ljrj123發表於2019-11-01

原文網址 : http://blog.itpub.net/31386431/viewspace-2662269/

NLPIR語義分析系統不斷提高中文分詞準確率

計算機的發展帶來了各種資料積累，做好文字分析對發展企業本身業務，調整企業發展模式，樹立正確企業定位都將產生很大的影響。隨著文字分析應用範圍的不斷增加，文字分析研究熱度不斷上升，作為文字分析中最關鍵的環節，提高中文分析準確率也成為提升文字分析技術的重要方面。

文字分析的應用範疇和應用模式在增加，其研究的準確度也在不斷提升。NLPIR-Parser大資料語義智慧分析平臺經過20餘年的積累，融合了網路資料採集、自然語言處理、文字挖掘與文字檢索等核心技術，完成了從資料的採集預處理、自然語言處理到文字挖掘、資訊檢索再到視覺化呈現、結果匯出等全鏈條各個環節的語義分析工具。

NLPIR大資料語義智慧分析平臺十三大功能：

精準採集：對境內外網際網路海量資訊實時精準採集，有主題採集(按照資訊需求的主題採集)與站點採集兩種模式(給定網址列表的站內定點採集功能)。

文件轉化：對doc、excel、pdf與ppt等多種主流文件格式，進行文字資訊轉化，效率達到大資料處理的要求。

新詞發現：從文字中挖掘出新詞、新概念，使用者可以用於專業詞典的編撰，還可以進一步編輯標註，匯入分詞詞典中，提高分詞系統的準確度，並適應新的語言變化。

批次分詞：對原始語料進行分詞，自動識別人名地名機構名等未登入詞，新詞標註以及詞性標註。並可在分析過程中，匯入使用者定義的詞典。

語言統計：針對切分標註結果，系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計。針對常用的術語，會自動給出相應的英文解釋。

文字聚類：能夠從大規模資料中自動分析出熱點事件，並提供事件話題的關鍵特徵描述。同時適用於長文字和簡訊、微博等短文字的熱點分析。

文字分類：根據規則或訓練的方法對大量文字進行分類，可用於新聞分類、簡歷分類、郵件分類、辦公文件分類、區域分類等諸多方面。

摘要實體：對單篇或多篇文章，自動提煉出內容摘要，抽取人名、地名、機構名、時間及主題關鍵詞;方便使用者快速瀏覽文字內容。

智慧過濾：對文字內容的語義智慧過濾審查，內建國內最全詞庫，智慧識別多種變種：形變、音變、繁簡等多種變形，語義精準排歧。

情感分析：針對事先指定的分析物件，系統自動分析海量文件的情感傾向：情感極性及情感值測量，並在原文中給出正負面的得分和句子樣例。

文件去重：快速準確地判斷檔案集合或資料庫中是否存在相同或相似內容的記錄，同時找出所有的重複記錄。

全文檢索：支援文字、數字、日期、字串等各種資料型別，多欄位的高效搜尋，支援AND/OR/NOT以及NEAR鄰近等查詢語法，支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。

編碼轉換：自動識別內容的編碼，並把編碼統一轉換為其他編碼。

NLPIR平臺為一般使用者提供了本地化部署的客戶端實現語義智慧分析的全鏈條一站式服務，也為軟體工程師提供了二次開發介面。現已服務了全球40萬家機構使用者和百餘家高校科研院所，為自然語言的研究者與工程應用提供了便利的技術支援，運用人工智慧技術和資料分析技術，不斷提高資訊管理領域知識處理的有效性。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31386431/viewspace-2662269/，如需轉載，請註明出處，否則將追究法律責任。

相關文章

NLPIR系統的中文語義分析模式介紹
2019-09-26
模式
NLPIR利用知識圖譜技術提高智慧問答準確率
2020-01-21
北大開源了中文分詞工具包：準確率遠超THULAC、結巴分詞！
2019-01-11
中文分詞
北大開源全新中文分詞工具包：準確率遠超THULAC、結巴分詞
2019-01-10
中文分詞
setInterval()不準確原因分析
2018-08-20
NLPIR平臺提供快捷簡便的語義分析工具
2019-11-12
中文分詞研究難點-詞語劃分和語言規範
2019-09-04
中文分詞
谷歌ReCaptcha系統被破解機器語音驗證準確率高達85%
2019-01-03
谷歌APT
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
準確率（Accuracy）精確率（Prescision）召回率（Recall）
2018-06-15
精確率、召回率、準確率與ROC曲線
2018-05-15
判斷方案絕密公式算單雙準確率99
2021-03-26
公式
python 實現中文分詞統計
2019-02-16
Python中文分詞
Java中文分片語件 - word分詞（skycto JEEditor）
2019-09-11
Java分詞
簡單有效的多標準中文分詞詳解
2018-12-28
中文分詞
Win10系統時間不準確的解決方法 Win10系統時間不準怎麼辦？
2018-09-16
Win10
reCAPTCHA系統被破！語音驗證準確度85%
2019-01-03
APT
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
NLP之中文分詞
2020-10-12
中文分詞
中文分詞技術
2020-09-18
中文分詞
ElasticSearch7.3學習(十五)----中文分詞器(IK Analyzer)及自定義詞庫
2022-03-28
Elasticsearch中文分詞
文字挖掘之語料庫、分詞、詞頻統計
2024-05-20
分詞
準確率評價指標
2020-10-05
指標
ls命令統計檔案數量不準確
2018-06-25
混淆矩陣、準確率、精確率/查準率、召回率/查全率、F1值、ROC曲線的AUC值
2018-07-09
矩陣
使用Docker快速安裝部署ES和Kibana並配置IK中文分詞器以及自定義分詞擴充詞庫
2020-10-28
Docker中文分詞
古詩詞中文分詞自動化
2018-04-05
分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
自然語言處理功能的全鏈條式集合，NLPIR大資料語義智慧分析平臺
2019-09-18
自然語言處理大資料
復旦大學提出中文分詞新方法，Transformer連有歧義的分詞也能學
2019-07-01
中文分詞ORM
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
使用PHP實現詞法分析與自定義語言
2022-01-11
PHP詞法分析
MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解
2018-10-15
HanLP中文分詞
【火爐煉AI】機器學習011-分類模型的評估：準確率，精確率，召回率，F1值
2018-08-06
AI機器學習模型
DeepMind推出首款商業化演算法產品！30秒準確診斷眼疾，準確率達到專家水平
2019-04-02
演算法
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
NLPIR語義挖掘技術提升大資料處理效果
2018-08-21
大資料