NLPIR平臺實現文字挖掘的一站式應用

ljrj123發表於2019-11-07

隨著社交網路等新型網路的迅猛發展,文字大資料呈幾何級數增長,語料庫的 加工處理一般都是由文科背景的研究人員完成,因此,急需快速簡便的大資料內容批處理平臺。

NLPIR大資料語義智慧分析平臺是一個全鏈條的分析工具,完全本地化部署, 不上傳使用者資料,安全可靠。融合了網路精準採集、自然語言理解、文字挖掘和 網路搜尋的技術,提供客戶端工具、雲服務以及二次開發介面,包含了大資料背 景下有關語義分析的各個環節的工具。語義智慧分析的全鏈條指的是從語料資料的採集預處理,經過自然語言處理 到文字挖掘,資訊檢索再到視覺化呈現和匯出以便適合於不同人員的使用需求的 全部處理過程。

資料收集和預處理部分

資料收集和預處理 中包括了透過主題採集和站點採集從網際網路上 爬取資訊和處理本地上傳或錄入的資訊,同時還提供了不同文件格式轉換和編碼 轉換的工具。

自然語言處理部分

自然語言處理部分可以進行批次分詞、新詞發現和主題抽取和語言 統計;文字挖掘部分可以進行文字分類、文字聚類、摘要實體生成、智慧過濾、情感分析、文件去重;

資訊檢索部分

資訊檢索部分可以進行模糊查詢快速全文檢索,附帶還有 文件去重的工具。

視覺化呈現部分

視覺化呈現部分可以畫出各種使用者喜歡的資訊表示圖案,如詞 雲圖等。

匯出部分

匯出部分貫穿在各個功能當中,將輸出結果匯出,使用者可以採用匯出的內容寫入分析報告當中。對於有開發背景的還可以透過API進行二次開發滿足特定需要,自動生成分析報告。

在使用層面,NLPIR大資料語義智慧分析開發平臺先後歷時20年,融入了20年的科研成果。平臺由多箇中介軟體組成,各個中介軟體API可以無縫地融合到客戶的各類 複雜應用系統之中,可相容Windows、Linux、Android、Maemo5、FreeBSD等不 同作業系統平臺,可以供Java、C、C#等各類開發語言使用。無論對沒有任何程式設計背景但要大量處理語 言、媒體資訊的文科生輔助處理分析,還是對需要二次開發才能完成特定領域的 資訊服務都可以滿足要求。現在已經服務了 全球40萬家機構使用者和100餘家高校使用者,免費給研究人員從事研究工作。 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2663096/,如需轉載,請註明出處,否則將追究法律責任。

相關文章