unit3 文字聚類
《集體智慧程式設計》第三單元“發現群組”主要亮點是文字的聚類。故針對第三單元的部落格文字聚類做記錄。
1、資料物件
通過讀取每個部落格的詞彙,統計詞頻,形成如下單詞表作為本次文字聚類的資料資料。第一列為所有部落格名稱,第一行為部落格中出現的詞彙,中間數值表示某個部落格出現該詞彙的次數。
2、分級聚類
分級聚類通過連續不斷地將最為相似的群組兩兩合併,來構造出一個群組的層級結構。
每個群組都是從單一元素開始的。在每次迭代的過程中,分級聚類演算法會計算每兩個群組間的距離,並將距離最近的兩個群組合併成一個新的群組。這一過程會一直重複下去,直至只剩一個群組為止。
【相似度定義】元素的相似度由相對位置體現,距離越近越相似。
【缺點】計算量太大,必須計算每兩個配對項之間的關係,並且在合併之後還需要重新計算新距離,在處理大規模的資料集時,該演算法的執行速度會非常緩慢。
考慮分級聚類的實質,在實際執行中我只處理了部分部落格資料,產生的聚類劃分結果如下所示:
3、K均值聚類
- 首先隨機確定K箇中心位置。(需實現確定要劃分的類別數量)
- 然後將各個資料項分配給最鄰近的中心點。分配完成後,重新安置中心點,中心點設定為群內元素中心位置。
- 進入第二輪迴圈,最鄰近劃分--->重新安置中心點---->
- 迴圈······
【要求】預先告訴演算法希望生成的聚類數量.
【缺點】由於初始中心的隨機選取,每次聚類結果是不一樣的
【優點】演算法執行速度更快
對部分部落格資料進行k均值聚類,當劃分為5類部落格時,劃分結果如下所示:
4、實際結合
書本里面的部落格我不是很熟悉,也無法直觀解釋這些部落格劃分在一起的理由,逛簡書的時候發現新浪部落格博文文字聚類好像很不錯。
相關文章
- 教你文字聚類聚類
- kmeans實現文字聚類聚類
- pyhanlp 文字聚類詳細介紹HanLP聚類
- 推薦系統中的產品聚類:一種文字聚類的方法聚類
- 系統學習NLP(二十)--文字聚類聚類
- NLPIR平臺的文字聚類模組完美契合行業需求聚類行業
- 分類 和 聚類聚類
- 聚類分析聚類
- 聚類之K均值聚類和EM演算法聚類演算法
- 聚類(part3)--高階聚類演算法聚類演算法
- 物以類聚人以群分,透過GensimLda文字聚類構建人工智慧個性化推薦系統(Python3.10)LDA聚類人工智慧Python
- 聚類演算法聚類演算法
- 機器學習——dbscan密度聚類機器學習聚類
- 【scipy 基礎】--聚類聚類
- 機器學習(8)——其他聚類機器學習聚類
- 09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE聚類演算法
- 聚類分析-案例:客戶特徵的聚類與探索性分析聚類特徵
- Spark應用HanLP對中文語料進行文字挖掘--聚類詳解教程SparkHanLP聚類
- 04聚類演算法-程式碼案例一-K-means聚類聚類演算法
- 機器學習 之 層次聚類機器學習聚類
- 譜聚類原理總結聚類
- 機器學習-聚類分析之DBSCAN機器學習聚類
- k-means聚類聚類
- 機器學習入門|聚類(二)機器學習聚類
- K-均值聚類分析聚類
- 異端審判器!一個泛用型文字聚類模型的實現(1)聚類模型
- 【Python機器學習實戰】聚類演算法(1)——K-Means聚類Python機器學習聚類演算法
- 知物由學 | 全新文字實時聚類技術,一網打盡同類有害內容聚類
- 【Python機器學習實戰】聚類演算法(2)——層次聚類(HAC)和DBSCANPython機器學習聚類演算法
- 各類聚類(clustering)演算法初探聚類演算法
- OPTICS聚類演算法原理聚類演算法
- sklearn建模及評估(聚類)聚類
- 密度聚類。Clustering by fast search and聚類AST
- 初探DBSCAN聚類演算法聚類演算法
- 非完整資料聚類初探聚類
- Spark構建聚類模型(二)Spark聚類模型
- 聚類演算法綜述聚類演算法
- 資料探勘-層次聚類聚類