NLPIR平臺提供快捷簡便的語義分析工具

ljrj123發表於2019-11-12


自然語言處理的語料庫加工處理過程中,一般都是大量的人工標引,急需快捷簡便的自然 語言處理工具。但對於一般研究人員來說,具體操作過程中有如下挑戰:

需要技術人員參與開發,文科背景的研究人員學習代價過高

對語料處理的專案,在時間要求不太緊急時,讓有知識背景的人做人工標記, 如檔案局歷史材料、專利局的專利申請材料等,但成本高、耗時長,標記後的內 容處理,如聚類、分類、視覺化等人工無法完成,需要計算機軟體來處理,雖然 可以用現成的商業或開源工具,效果也不一定好,對工具的使用又有學習成本, 尤其對於文書處理需求多的文科類人員比較困難。有些專案時間要求緊急,如網 上應急事件的處理,再用人工逐一篩選,既不全面也不能滿足快速應急處理的 需要。

待處理的語料庫知識資源存在資料洩漏的隱患

大部分研究者的語料庫都是耗費了大量人力物力收集整理的,價值密度極高, 甚至是畢生的心血積累。而目前自然語言處理的機構大部分提供的都是自然語言 處理雲服務平臺,要求使用者上傳待處理的語料庫,如騰訊NLP雲服務、百度 NLP雲服務。雲端儲存的資料資源脫離了上傳者後,資料確權上沒有法律保障, 存在資料洩露並被竊取濫用的巨大隱患,導致大部分使用者望而卻步。

大部分工具功能單一,缺乏一站式全鏈條的語義分析工具

目前已經有大量的研究者分別對自然語言處理中的各個關鍵點上問題進行 研究開發出了一些開源的工具,有的只是單一功能,有的具有多個功能,但不是 全鏈條。如urllib2、Scrapy、Pyspider等提供資訊抓取工具;jieba提供分詞工具; SnowNLP提供分詞、情感分析、文字分類、轉換成拼音、繁簡轉換、文字關鍵詞 和文字摘要提取、計算文件詞頻和文字相似度計算等工具;sklearn提供分類、聚 類、迴歸、預處理、模型選擇等工具;HanNLP提供中文分詞,命名實體識別, 關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文字推薦,依存句法 分析工具,但只有在java上可以用,而且配置、安裝複雜;哈爾濱工業大學語言 技術平臺LTP提供中文分詞、詞性標註、命名實體識別、依存句法分析、語義角 色標註等工具,但需要根據API引數構造HTTP請求線上獲得分析結果; 針對眾多研究者對自然語言處理的迫切需求與實際挑戰。

NLPIR-Parser平臺包含精準採集, 文件格式轉換、新詞發現、批次分詞、語言統計、文字聚類、文字分類、摘要實 體、智慧過濾、情感分析、文件去重、全文檢索和編碼轉換十三項獨立功能,涵 蓋了從資料的採集預處理、自然語言處理到文字挖掘、資訊檢索再到視覺化呈現、 結果匯出等全鏈條各個環節的語義分析工具。NLPIR-Parser歷時 20餘年,為一般使用者提供了本地化部署的客戶端實現語義智慧分析的全鏈條一站 式服務,也為軟體工程師提供了二次開發介面。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2663759/,如需轉載,請註明出處,否則將追究法律責任。

相關文章