分類 和 聚類
簡單地說,分類(Categorization or Classification)就是按照某種標準給物件貼標籤(label),再根據標籤來區分歸類。
簡單地說,聚類是指事先沒有“標籤”而通過某種成團分析找出事物之間存在聚集性原因的過程。
區別是,分類是事先定義好類別 ,類別數不變 。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。 聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成 。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。
分類的目的是學會一個分類函式或分類模型(也常常稱作分類器 ),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。 要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示欄位值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。
聚類(clustering)是指根據“物以類聚”原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:K-均值聚類演算法、K-中心點聚類演算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。
相關文章
- 聚類之K均值聚類和EM演算法聚類演算法
- 前端架構思想:聚類分層前端架構聚類
- 聚類分析聚類
- 聚類(part3)--高階聚類演算法聚類演算法
- 20分鐘學會DBSCAN聚類演算法聚類演算法
- 【Python機器學習實戰】聚類演算法(2)——層次聚類(HAC)和DBSCANPython機器學習聚類演算法
- 【scipy 基礎】--聚類聚類
- 聚類演算法聚類演算法
- k-means聚類聚類
- 09聚類演算法-層次聚類-CF-Tree、BIRCH、CURE聚類演算法
- 04聚類演算法-程式碼案例一-K-means聚類聚類演算法
- 聚類分析-案例:客戶特徵的聚類與探索性分析聚類特徵
- 獨立模型 和分類模型
- unit3 文字聚類聚類
- 譜聚類原理總結聚類
- 密度聚類。Clustering by fast search and聚類AST
- Clustering and Projected Clustering with Adaptive Neighbors(自適應鄰域聚類CAN和自適應鄰域投影聚類PCAN)ProjectAPT聚類PCA
- 京東獲得jd商品分類API介面(父分類、根分類、子分類)API
- 推薦系統中的產品聚類:一種文字聚類的方法聚類
- 【Python機器學習實戰】聚類演算法(1)——K-Means聚類Python機器學習聚類演算法
- 通用mapper和分類實現APP
- Spark構建聚類模型(二)Spark聚類模型
- 聚類演算法綜述聚類演算法
- sklearn建模及評估(聚類)聚類
- 譜聚類的python實現聚類Python
- OPTICS聚類演算法原理聚類演算法
- 非完整資料聚類初探聚類
- 初探DBSCAN聚類演算法聚類演算法
- 資料探勘-層次聚類聚類
- ML.NET 示例:多類分類之問題分類
- ML.NET 示例:多類分類之鳶尾花分類
- 無限極分類類
- php 無限分類遞迴 和 無限分類引入 的效能差距PHP遞迴
- 14聚類演算法-程式碼案例六-譜聚類(SC)演算法案例聚類演算法
- 可伸縮聚類演算法綜述(可伸縮聚類演算法開篇)聚類演算法
- uml類圖中類版型區分--邊界類,控制類,實體類
- 網路:IP地址分類和分段
- 伺服器的作用和分類伺服器
- pyhanlp 文字聚類詳細介紹HanLP聚類