NLPIR平臺的文字聚類模組完美契合行業需求

ljrj123發表於2019-11-21


文字聚類的實現是建立在著名的聚類假設上:同類的文件相似度較大,不同類的文件相似度較小。作為 一種典型的無監督式機器學習方法,聚類方法的選擇取決於資料型別。首先,文件聚類發現與某文件相似的一批文件,幫助知識工作者發現相關知識; 再著 ,文件聚類可以將一類文件聚類成若干個類,提供一種組織文件集合的方法; 然後 ,文件聚類還可以生成分類器以對文件進行分類。

作為無監督的機器學習方法,由於不需要訓練過程和預先對文件手工標註類別,文字聚類有著較高的靈活性和自動化處理能力,這些特性也使得其成為對文字資訊進行有效地組織、摘要和導航的重要途徑。在實際應用中,文字 聚類可用於提供大規模文件內容總括 識別隱藏的文件間的相似度;減輕瀏覽相關、相似資訊的過程。

NLPIR大資料語義智慧分析平臺是一個全鏈條的分析工具,完全本地化部署, 不上傳使用者資料,安全可靠。融合了網路精準採集、自然語言理解、文字挖掘和 網路搜尋的技術,提供客戶端工具、雲服務以及二次開發介面,包含了大資料背 景下有關語義分析的各個環節的工具,無論對沒有任何程式設計背景但要大量處理語 言、媒體資訊的文科生輔助處理分析,還是對需要二次開發才能完成特定領域的 資訊服務都可以滿足要求。平臺先後歷時20年,融入了20年的科研成果。服務了全球40萬家機構使用者和100餘家高校使用者,免費給研究人員從事研究工作。


  NLPIR文字聚類模組是基於相似性演算法的自動聚類技術,自動對大量無類別的文件進行歸類,把內容相近的文件歸為一類,並自動為該類生成標題和主題詞。基於文章集合核心語義理解技術,不僅聚類速度快,而且準確率高,並能自動得到類別間的演化趨勢。其能夠從大規模資料中自動分析出熱點事件,並提供事件話題的關鍵特徵描述,適用於自動生成熱點輿論專題、重大新聞事件追蹤、情報的視覺化分析等諸多應用,能夠實現長文字和簡訊、微博等短文字的熱點分析。使用NLPIR平臺的文字聚類模組進行分析,能夠檢視同屬一個類別的多個檔案。聚類詳情檔名稱包含:聚類特徵詞、媒體來源與新聞標題。

 

 

 

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2665170/,如需轉載,請註明出處,否則將追究法律責任。

相關文章