文字聚類的實現是建立在著名的聚類假設上：同類的文件相似度較大，不同類的文件相似度較小。作為一種典型的無監督式機器學習方法，聚類方法的選擇取決於資料型別。首先，文件聚類發現與某文件相似的一批文件，幫助知識工作者發現相關知識；再著，文件聚類可以將一類文件聚類成若干個類，提供一種組織文件集合的方法；然後，文件聚類還可以生成分類器以對文件進行分類。

作為無監督的機器學習方法，由於不需要訓練過程和預先對文件手工標註類別，文字聚類有著較高的靈活性和自動化處理能力，這些特性也使得其成為對文字資訊進行有效地組織、摘要和導航的重要途徑。在實際應用中，文字聚類可用於提供大規模文件內容總括：識別隱藏的文件間的相似度；減輕瀏覽相關、相似資訊的過程。

NLPIR大資料語義智慧分析平臺是一個全鏈條的分析工具，完全本地化部署，不上傳使用者資料，安全可靠。融合了網路精準採集、自然語言理解、文字挖掘和網路搜尋的技術，提供客戶端工具、雲服務以及二次開發介面，包含了大資料背景下有關語義分析的各個環節的工具，無論對沒有任何程式設計背景但要大量處理語言、媒體資訊的文科生輔助處理分析，還是對需要二次開發才能完成特定領域的資訊服務都可以滿足要求。平臺先後歷時20年，融入了20年的科研成果。服務了全球40萬家機構使用者和100餘家高校使用者，免費給研究人員從事研究工作。

　　NLPIR文字聚類模組是基於相似性演算法的自動聚類技術，自動對大量無類別的文件進行歸類，把內容相近的文件歸為一類，並自動為該類生成標題和主題詞。基於文章集合核心語義理解技術，不僅聚類速度快，而且準確率高，並能自動得到類別間的演化趨勢。其能夠從大規模資料中自動分析出熱點事件，並提供事件話題的關鍵特徵描述，適用於自動生成熱點輿論專題、重大新聞事件追蹤、情報的視覺化分析等諸多應用，能夠實現長文字和簡訊、微博等短文字的熱點分析。使用NLPIR平臺的文字聚類模組進行分析，能夠檢視同屬一個類別的多個檔案。聚類詳情檔名稱包含：聚類特徵詞、媒體來源與新聞標題。

NLPIR平臺的文字聚類模組完美契合行業需求

相關文章