kmeans實現文字聚類

超人汪小建發表於2017-06-22

需求

拿到的需求是輸入n個文字，對文字進行聚類，由於這些輸入不能通過歷史資料進行訓練，所以這個主要就是用無監督學習來解決。

kmeans

談到聚類就會想到kmeans，它的核心思想是給定的K值和K個初始質心將樣本中每個點都分到距離最近的類簇中，當所有點分配完後根據每個類簇的所有點重新計算質心，一般是通過平均值計算，然後再將每個點分到距離最近的新類簇中，不斷迴圈此操作，直到質心不再變化或達到一定的迭代次數。

分詞

會使用一些工具進行分詞，比如IKAnalyzer，同時也支援將停詞去掉。

詞庫

剛開始分類效果不是很好，於是改進詞庫。對於特定行業的分詞，為提高分詞的準確性及專業性，可以收集更準確的詞庫用於分詞。可以由搜狗 pinyin.sogou.com/dict/ 搜尋各種類別的詞彙，自己下載下來再整理，它的格式為scel，可以使用深藍詞彙轉換工具轉成txt方便使用。

特徵集

特徵集的確定是文字向量化的第一步，只有特徵集確定好了才能進一步確定向量的值，那麼怎麼確定特徵集呢？一般的做法可以是將所有樣本的詞都提取出來作為特徵集。比如我們有兩個文字 “小學生上學”和“股票大跌”，那特徵集就是{"小學生","上學","股票","大跌"}。

特徵權重

向量化第二部就是確定特徵集的權重，特徵集可以看成是向量的維數，而對於每個樣本來說就需要確定每個維度的值了，這個值就可以看成是特徵的權重，常常用TF-IDF作為值。TF-IDF又是什麼？簡單來說TF就是某文件中某個term出現的次數，而IDF即逆文件頻率，可由下面公式計算：

其中，T為統計樣本中總文件數，t為包含某term的文件數。
TF和IDF的相乘則為特徵權重。

特徵降維

其實就是通過某種方法選擇出比較相關的一些特徵，將一些無關的特徵去掉，達到特徵降維效果。比如可以通過卡方檢驗，這裡選擇了用其他方式，提取熱詞。即認為每個文件的熱詞能代表該文件，由熱片語成特徵。

主要程式碼

public int[] learn(List textList) {
    List vectorList = VectorUtil.getVectorDimension(textList);
    double[][] datas = VectorUtil.getVector(textList.size(), vectorList, idf);
    KMeans kmeans = new KMeans(datas, K, ITERATE);
    return kmeans.getClusterLabel();
}複製程式碼

Github

github.com/sea-boat/Te…

以下是廣告和相關閱讀

========廣告時間========

鄙人的新書《Tomcat核心設計剖析》已經在京東銷售了，有需要的朋友可以到 item.jd.com/12185360.ht… 進行預定。感謝各位朋友。

=========================

歡迎關注：

kmeans聚類演算法matlab實現
2014-12-08
聚類演算法Matlab
利用python的KMeans和PCA包實現聚類演算法
2019-09-15
PythonPCA聚類演算法
Kmeans如何初始化聚類中心
2018-10-12
聚類
102、聚類Kmeans演算法
2017-12-08
聚類演算法
mahout之聚類演算法——KMeans分析
2013-10-13
聚類演算法
呼叫WEKA包進行kmeans聚類（java）
2015-07-03
聚類Java
【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)
2001-01-01
機器學習聚類演算法Python
教你文字聚類
2009-04-28
聚類
KMeans演算法與GMM混合高斯聚類
2023-04-16
演算法聚類
第十篇：K均值聚類(KMeans)
2017-05-20
聚類
Mahout學習之聚類演算法Kmeans
2015-10-23
聚類演算法
《機器學習實戰》kMeans演算法（K均值聚類演算法）
2015-10-07
機器學習演算法聚類
吳恩達《Machine Learning》精煉筆記 8：聚類 KMeans 及其 Python實現
2021-01-16
吳恩達Mac筆記聚類Python
unit3 文字聚類
2018-05-11
聚類
《機器學習實戰》二分-kMeans演算法（二分K均值聚類）
2015-10-07
機器學習演算法聚類
【python資料探勘課程】二十四.KMeans文字聚類分析互動百科語料
2018-07-06
Python聚類
C均值聚類 C實現 Python實現
2020-12-05
聚類Python
聚類kmeans演算法在yolov3中的應用
2019-05-28
聚類演算法YOLO
ML.NET技術研究系列-2聚類演算法KMeans
2019-07-14
聚類演算法
譜聚類的python實現
2020-08-23
聚類Python
MVO優化DBSCAN實現聚類
2020-11-02
優化聚類
用Python實現文件聚類
2016-06-28
Python聚類
pyhanlp 文字聚類詳細介紹
2018-11-23
HanLP聚類
異端審判器！一個泛用型文字聚類模型的實現（1）
2019-02-27
聚類模型
推薦系統中的產品聚類：一種文字聚類的方法
2020-01-02
聚類
系統學習NLP（二十）--文字聚類
2019-03-14
聚類
MMM全連結聚類演算法實現
2024-05-25
聚類演算法
貝葉斯實現文字分類C++實現
2017-08-05
文字分類C++
聚類演算法與K-means實現
2021-09-08
聚類演算法
教程 | 用Scikit-Learn實現多類別文字分類
2018-05-14
文字分類
Spark MLlib SVM 文字分類器實現
2015-12-30
Spark文字分類
NLPIR平臺的文字聚類模組完美契合行業需求
2019-11-21
聚類行業
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
層級聚類和Python實現的初學者指南（附連結）
2020-11-12
聚類Python
分類和聚類
2011-01-24
聚類
聚類分析
2024-03-20
聚類
如何透過Scikit-Learn實現多類別文字分類？
2018-03-05
文字分類
如何通過Scikit-Learn實現多類別文字分類？
2018-03-05
文字分類