系統學習NLP（二十）--文字聚類

Eason.wxd發表於2019-03-14

原文網址 : https://blog.csdn.net/app_12062011/article/details/88547960

轉自：https://zhuanlan.zhihu.com/p/40991165

1:什麼是文字聚類

先說說聚類的概念,聚類又稱群分析,是資料探勘的一種重要的思想,聚類（Cluster）分析是由若干模式（Pattern）組成的，通常，模式是一個度量（Measurement）的向量，或者是多維空間中的一個點。聚類分析以相似性為基礎，在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。(以上來自百度百科).

再說到文字聚類,文字聚類其實也就是在文字方向上的應用,首先我們要把一個個文件的自然語言轉換成數學資訊,這樣形成高維空間點之後再去計算點與點之間的距離,然後將這些距離比較近的聚成一個簇,這些簇的中心成為簇心.而我們做的就是保證簇內點的距離足夠近,簇與簇的距離足夠遠.

我接到的任務是在評論文字上進行聚類操作,起初以為很簡單,但是發現其實還是不是很好操作的,有幾個原因,一方面是評論有些部分語義其實是重複的,這樣導致一些類別會重合,這樣使用聚類的方法往往是不準確的,另一方面是一些評論上的詞語使用近義詞和一些音譯字來替換詞語,比如”微信”會轉成”V信”等這些在分詞的時候會有一些問題.並且又因為聚類是一種非監督學習,往往給我們的資料太多(給我的評論資料有80w,有多少類,什麼類)我們都不知道,我們也只能輪廓係數不斷地測試,找到一個合適的結果出來.

並且我們用的一些演算法也有一些問題,比如我們使用的K-means方法,每一次選取的簇心是隨機的,這樣一來得到的結果也是每次不一樣的,所以聚類演算法也是比較難評價,這也是一些困難的部分.

2:文字聚類的過程

主要的過程如圖所示,其實主要的部分有三個:

第一部分,分詞處理,我們要把中文文章要進行分詞,這一點中文文章和英文文章有一些區別,因為英文單詞是單個構成的,也就不需要分詞了,而我們中文是需要分詞的,並且中文之間有一些詞儘管大量出現,但是對於文章的分類結構起不到太大的意義,比如”的”,”了”,”麼””應該”,這些詞去計算他們既浪費空間又浪費時間,出於+1s的因素,我們也要節約時間啊,首先我們就加入一個停用詞表,在進行分詞的時候進行去掉.

第二部分:分詞後將分詞轉換為詞向量

關於詞向量我們有一些比較常用的模型,比如one-hotm,BOW詞袋模型,連續詞袋模型(CBOW)和Skip-Gram模型和Word2vec模型,在這次任務中我是用的是BOW詞袋模型,在轉換為詞向量值我們要將其轉換成tfidf矩陣,tfidf其實可以看作是提取的特徵的一次加權,是根據一個單詞在當前文章中出現的頻率和該單詞在所有語料中出現的頻率評估一個單詞的重要性，當一個單詞在這篇文章中出現的次數很多的時候，這個詞語更加重要；但如果它在所有文章中出現的次數都很多，那麼它就顯得不那麼重要

第三部分:選擇聚類演算法

這裡的演算法大家常用的是K-means和DBSCAN,這兩種演算法用的最多,但是在高維空間裡邊K-means似乎並不是很好,究其原因是因為維度太高,簇與簇之間的距離太小了,如果直接去聚類,這一部分似乎效果不太好,這時候就需要用到主成分分析PCA,大致的思路是大致意思就是取這個高維向量中方差最大的方向經過一些數學變換將有用的部分保留，沒用的部分捨棄，這種辦法同樣適合分類演算法中尋找最大的特徵.

這一部分似乎也得單獨拿出一篇文章好好寫一下,畢竟太多坑了.

最後演算法評測,對於K-means,我們使用的是簇的距離進行評定,對於Brich層次聚類,我們使用的是輪廓係數來評定,最後發現,這真是一個調參活,感嘆真不容易.

最後效果:

紅色虛線是輪廓係數,柱狀圖是類別,儘量多的讓柱狀在輪廓係數附近,我們可以認為結果取得不錯.

系統學習NLP（十九）--文字分類之FastText
2019-03-14
文字分類AST
系統學習NLP（二十一）--SWEM
2019-03-19
系統學習NLP（十七）--文字相似度
2019-03-13
系統學習NLP（十二）--文字表示綜述
2019-03-10
推薦系統中的產品聚類：一種文字聚類的方法
2020-01-02
聚類
系統學習NLP（十六）--DSSM
2019-03-12
SSM
【火爐煉AI】機器學習039-NLP文字分類器
2018-10-17
AI機器學習文字分類
unit3 文字聚類
2018-05-11
聚類
系統學習NLP（十五）--seq2seq
2019-03-12
系統學習NLP（十四）--句子向量與篇章向量
2019-03-11
機器學習——dbscan密度聚類
2020-11-19
機器學習聚類
機器學習（8）——其他聚類
2018-03-24
機器學習聚類
物以類聚人以群分,透過GensimLda文字聚類構建人工智慧個性化推薦系統(Python3.10)
2023-01-09
LDA聚類人工智慧Python
機器學習-聚類分析之DBSCAN
2020-11-22
機器學習聚類
機器學習之層次聚類
2020-04-14
機器學習聚類
pyhanlp 文字聚類詳細介紹
2018-11-23
HanLP聚類
NLP-使用CNN進行文字分類
2018-04-20
CNN文字分類
【人人都能學得會的NLP - 文字分類篇 03】長文字多標籤分類分類如何做？
2024-11-30
文字分類
swift4.1 系統學習二十一泛型
2018-10-29
Swift泛型
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
【機器學習】K-means聚類分析
2022-06-30
機器學習聚類
聯邦學習：多工思想與聚類聯邦學習
2022-03-15
聯邦學習聚類
推薦系統之路 (2)：產品聚類
2019-05-05
聚類
文字分類：Keras+RNN vs傳統機器學習
2021-11-30
文字分類KerasRNN機器學習
【python資料探勘課程】二十四.KMeans文字聚類分析互動百科語料
2018-07-06
Python聚類
NLP學習1
2024-09-16
【Python機器學習實戰】聚類演算法（2）——層次聚類(HAC)和DBSCAN
2021-12-16
Python機器學習聚類演算法
【人人都能學得會的NLP - 文字分類篇 04】層次化多標籤文字分類如何做？
2024-12-01
文字分類
【火爐煉AI】機器學習037-NLP文字分塊
2018-10-10
AI機器學習
Vue3學習（二十）- 富文字外掛wangeditor的使用
2024-02-27
Vue
系統學習NLP（十）--詞性標註演算法綜述
2019-03-09
詞性標註演算法
C#學習 [型別系統] 類（13）
2024-10-30
C#型別
機器學習（五）：混合高斯聚類GMM（求聚類標籤）+PCA降維（3維降2維）習題
2023-04-08
機器學習聚類PCA
從零開始學機器學習——K-Means 聚類
2024-11-20
機器學習聚類
從零開始學機器學習——聚類視覺化
2024-11-18
機器學習聚類視覺化
【機器學習】--譜聚類從初始到應用
2018-04-06
機器學習聚類
機器學習Sklearn系列：（五）聚類演算法
2021-07-22
機器學習聚類演算法
如何用機器學習對文字分類
2019-02-20
機器學習文字分類

系統學習NLP（二十）--文字聚類

相關文章