自然語言處理功能的全鏈條式集合,NLPIR大資料語義智慧分析平臺

ljrj123發表於2019-09-18

近年來,自然語言處理 一直在 快速發展。 隨著詞表和 語料庫等 研究材料逐漸豐富 ,詞語切分、詞性標註、句法分析等 技術的進步 自然語言研究不斷推出新模型,這些研究的進展也擴充套件了自然語言的應用領域和場景。同時,隨著網際網路和社會經濟的關係逐漸緊密,企業發展也帶來了自然語言處理的市場需求。

 

我國的 自然語言處理研究 是從上世紀80年代開始的 目前為止,在 語料庫、知識庫等資料資源建設,詞語切分、句法分析等基礎技術,以及資訊檢索、機器翻譯等應用技術 方面均在不斷實現新突破 這些功能應用於實踐當中,將文字進行分詞之後,再利用關鍵詞匹配,能夠完成資訊檢索、文字分類、拼寫糾錯、情感分析、關鍵詞提取、關聯圖譜構建等任務。

 

但是在應用層次,現在自然語言處理工具功能單一,缺乏一站式全鏈條的語義分析工具。目前已經有大量的研究者分別對自然語言處理中的各個關鍵點上問題進行,研究開發出了一些開源的工具,有的只是單一功能,有的具有多個功能,但不是全鏈條。如urllib2、Scrapy、Pyspider等提供資訊抓取工具;jieba提供分詞工具; SnowNLP提供分詞、情感分析、文字分類、轉換成拼音、繁簡轉換、文字關鍵詞 和文字摘要提取、計算文件詞頻和文字相似度計算等工具;sklearn提供分類、聚 類、迴歸、預處理、模型選擇等工具;HanNLP提供中文分詞,命名實體識別, 關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文字推薦,依存句法 分析工具,但只有在java上可以用,而且配置、安裝複雜;哈爾濱工業大學語言技術平臺LTP提供中文分詞、詞性標註、命名實體識別、依存句法分析、語義角 色標註等工具,但需要根據API引數構造HTTP請求線上獲得分析結果;

 

針對眾多研究者對自然語言處理的迫切需求與實際挑戰,NLPIR-Parser歷時 20餘年,為一般使用者提供了語義智慧分析的全鏈條一站 式服務,也為軟體工程師提供了二次開發介面。NLPIR-Parser平臺能夠實現的功能包括精準採集, 文件格式轉換、新詞發現、批次分詞、語言統計、文字聚類、文字分類、摘要實體、智慧過濾、情感分析、文件去重、全文檢索和編碼轉換十三項獨立功能,能夠實現從資料的採集預處理、自然語言處理到文字挖掘、資訊檢索再到視覺化呈現、結果匯出等全鏈條的各個功能。

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2657417/,如需轉載,請註明出處,否則將追究法律責任。

相關文章