分類和聚類

maqianmaqian發表於2011-01-24

簡單地說，分類(Categorization or Classification)就是按照某種標準給物件貼標籤(label)，再根據標籤來區分歸類。

簡單地說，聚類是指事先沒有“標籤”而通過某種成團分析找出事物之間存在聚集性原因的過程。

區別是，分類是事先定義好類別，類別數不變。分類器需要由人工標註的分類訓練語料訓練得到，屬於有指導學習範疇。聚類則沒有事先預定的類別，類別數不確定。聚類不需要人工標註和預先訓練分類器，類別在聚類過程中自動生成。分類適合類別或分類體系已經確定的場合，比如按照國圖分類法分類圖書；聚類則適合不存在分類體系、類別數不確定的場合，一般作為某些應用的前端，比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。

分類的目的是學會一個分類函式或分類模型(也常常稱作分類器 ),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。要構造分類器，需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成，每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量，此外，訓練樣本還有一個類別標記。一個具體樣本的形式可表示為：(v1,v2,...,vn; c)；其中vi表示欄位值，c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。

聚類(clustering)是指根據“物以類聚”原理，將本身沒有類別的樣本聚整合不同的組，這樣的一組資料物件的集合叫做簇，並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似，而不同簇的樣本應該足夠不相似。與分類規則不同，進行聚類前並不知道將要劃分成幾個組和什麼樣的組，也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函式關係，挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展，涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域，聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括：K-均值聚類演算法、K-中心點聚類演算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。

聚類之K均值聚類和EM演算法
2019-05-13
聚類演算法
前端架構思想：聚類分層
2018-10-19
前端架構聚類
聚類分析
2024-03-20
聚類
聚類(part3)--高階聚類演算法
2020-10-11
聚類演算法
20分鐘學會DBSCAN聚類演算法
2024-07-16
聚類演算法
【Python機器學習實戰】聚類演算法（2）——層次聚類(HAC)和DBSCAN
2021-12-16
Python機器學習聚類演算法
【scipy 基礎】--聚類
2023-11-01
聚類
聚類演算法
2020-04-26
聚類演算法
k-means聚類
2023-01-30
聚類
09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE
2018-12-11
聚類演算法
04聚類演算法-程式碼案例一-K-means聚類
2018-12-08
聚類演算法
聚類分析-案例：客戶特徵的聚類與探索性分析
2020-09-28
聚類特徵
獨立模型和分類
2020-04-04
模型
unit3 文字聚類
2018-05-11
聚類
譜聚類原理總結
2022-01-18
聚類
密度聚類。Clustering by fast search and
2021-09-09
聚類AST
Clustering and Projected Clustering with Adaptive Neighbors（自適應鄰域聚類CAN和自適應鄰域投影聚類PCAN）
2020-11-09
ProjectAPT聚類PCA
京東獲得jd商品分類API介面（父分類、根分類、子分類）
2023-04-20
API
推薦系統中的產品聚類：一種文字聚類的方法
2020-01-02
聚類
【Python機器學習實戰】聚類演算法（1）——K-Means聚類
2021-12-06
Python機器學習聚類演算法
通用mapper和分類實現
2018-03-15
APP
Spark構建聚類模型（二）
2018-12-11
Spark聚類模型
聚類演算法綜述
2018-12-09
聚類演算法
sklearn建模及評估（聚類）
2019-09-03
聚類
譜聚類的python實現
2020-08-23
聚類Python
OPTICS聚類演算法原理
2020-05-14
聚類演算法
非完整資料聚類初探
2021-06-10
聚類
初探DBSCAN聚類演算法
2021-05-22
聚類演算法
資料探勘-層次聚類
2020-12-02
聚類
ML.NET 示例：多類分類之問題分類
2018-12-06
ML.NET 示例：多類分類之鳶尾花分類
2018-12-07
無限極分類類
2019-05-11
php 無限分類遞迴和無限分類引入的效能差距
2020-09-25
PHP遞迴
14聚類演算法-程式碼案例六-譜聚類(SC)演算法案例
2018-12-16
聚類演算法
可伸縮聚類演算法綜述（可伸縮聚類演算法開篇）
2018-10-30
聚類演算法
uml類圖中類版型區分--邊界類，控制類，實體類
2020-11-04
網路：IP地址分類和分段
2019-01-14
伺服器的作用和分類
2020-09-17
伺服器
pyhanlp 文字聚類詳細介紹
2018-11-23
HanLP聚類

分類 和 聚類

相關文章

分類和聚類