通常用於研究分析的資料中，非結構化的資料所佔比例更高，這些非結構化的資料中也包含著重要的資訊量，要運用文字分析工具來完成資訊提取。文字分析是自然語言處理的一個小分支，是指從文字中抽取特徵詞進行量化以表示文字資訊，文字一般指文字。過程是將無結構化的原始文字轉化為結構化，高度抽象和特徵化，計算機可以識別和處理的資訊，進而利用機器學習，分類聚類等演算法，再對文字進行分析處理。現已經在廣告推薦和輿情監測方面實現應用。

NLPIR大資料語義智慧分析平臺十三大功能：

精準採集：對境內外網際網路海量資訊實時精準採集，有主題採集(按照資訊需求的主題採集)與站點採集兩種模式(給定網址列表的站內定點採集功能)。

文件轉化：對doc、excel、pdf與ppt等多種主流文件格式，進行文字資訊轉化，效率達到大資料處理的要求。

新詞發現：從文字中挖掘出新詞、新概念，使用者可以用於專業詞典的編撰，還可以進一步編輯標註，匯入分詞詞典中，提高分詞系統的準確度，並適應新的語言變化。

批次分詞：對原始語料進行分詞，自動識別人名地名機構名等未登入詞，新詞標註以及詞性標註。並可在分析過程中，匯入使用者定義的詞典。

語言統計：針對切分標註結果，系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計。針對常用的術語，會自動給出相應的英文解釋。

文字聚類：能夠從大規模資料中自動分析出熱點事件，並提供事件話題的關鍵特徵描述。同時適用於長文字和簡訊、微博等短文字的熱點分析。

文字分類：根據規則或訓練的方法對大量文字進行分類，可用於新聞分類、簡歷分類、郵件分類、辦公文件分類、區域分類等諸多方面。

摘要實體：對單篇或多篇文章，自動提煉出內容摘要，抽取人名、地名、機構名、時間及主題關鍵詞;方便使用者快速瀏覽文字內容。

智慧過濾：對文字內容的語義智慧過濾審查，內建國內最全詞庫，智慧識別多種變種：形變、音變、繁簡等多種變形，語義精準排歧。

情感分析：針對事先指定的分析物件，系統自動分析海量文件的情感傾向：情感極性及情感值測量，並在原文中給出正負面的得分和句子樣例。

文件去重：快速準確地判斷檔案集合或資料庫中是否存在相同或相似內容的記錄，同時找出所有的重複記錄。

全文檢索：支援文字、數字、日期、字串等各種資料型別，多欄位的高效搜尋，支援AND/OR/NOT以及NEAR鄰近等查詢語法，支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。

編碼轉換：自動識別內容的編碼，並把編碼統一轉換為其他編碼。

NLPIR大資料語義智慧分析平臺是一個全鏈條的分析工具，完全本地化部署，不上傳使用者資料，安全可靠。融合了網路精準採集、自然語言理解、文字挖掘和網路搜尋的技術，提供客戶端工具、雲服務以及二次開發介面，包含了大資料背景下有關語義分析的各個環節的工具，無論對沒有任何程式設計背景但要大量處理語言、媒體資訊的文科生輔助處理分析，還是對需要二次開發才能完成特定領域的資訊服務都可以滿足要求。平臺先後歷時20年，融入了20年的科研成果。服務了全球40萬家機構使用者和100餘家高校使用者，免費給研究人員從事研究工作。

NLPIR文字分析工具的功能和特色介紹

相關文章