隨著社交網路等新型網路的迅猛發展，文字大資料呈幾何級數增長，語料庫的加工處理一般都是由文科背景的研究人員完成，因此，急需快速簡便的大資料內容批處理平臺。

NLPIR大資料語義智慧分析平臺是一個全鏈條的分析工具，完全本地化部署，不上傳使用者資料，安全可靠。融合了網路精準採集、自然語言理解、文字挖掘和網路搜尋的技術，提供客戶端工具、雲服務以及二次開發介面，包含了大資料背景下有關語義分析的各個環節的工具。語義智慧分析的全鏈條指的是從語料資料的採集預處理，經過自然語言處理到文字挖掘，資訊檢索再到視覺化呈現和匯出以便適合於不同人員的使用需求的全部處理過程。

資料收集和預處理部分

資料收集和預處理中包括了透過主題採集和站點採集從網際網路上爬取資訊和處理本地上傳或錄入的資訊，同時還提供了不同文件格式轉換和編碼轉換的工具。

自然語言處理部分

自然語言處理部分可以進行批次分詞、新詞發現和主題抽取和語言統計；文字挖掘部分可以進行文字分類、文字聚類、摘要實體生成、智慧過濾、情感分析、文件去重；

資訊檢索部分

資訊檢索部分可以進行模糊查詢快速全文檢索，附帶還有文件去重的工具。

視覺化呈現部分

視覺化呈現部分可以畫出各種使用者喜歡的資訊表示圖案，如詞雲圖等。

匯出部分

匯出部分貫穿在各個功能當中，將輸出結果匯出，使用者可以採用匯出的內容寫入分析報告當中。對於有開發背景的還可以透過API進行二次開發滿足特定需要，自動生成分析報告。

在使用層面，NLPIR大資料語義智慧分析開發平臺先後歷時20年，融入了20年的科研成果。平臺由多箇中介軟體組成，各個中介軟體API可以無縫地融合到客戶的各類複雜應用系統之中，可相容Windows、Linux、Android、Maemo5、FreeBSD等不同作業系統平臺，可以供Java、C、C#等各類開發語言使用。無論對沒有任何程式設計背景但要大量處理語言、媒體資訊的文科生輔助處理分析，還是對需要二次開發才能完成特定領域的資訊服務都可以滿足要求。現在已經服務了全球40萬家機構使用者和100餘家高校使用者，免費給研究人員從事研究工作。

NLPIR平臺實現文字挖掘的一站式應用

相關文章