Normalized Mutual Information(NMI, 歸一化互資訊)

亦可九天揽月發表於2024-10-30

原文網址 : https://www.cnblogs.com/sunmk/p/18516516

ORMZed

Normalized Mutual Information(NMI, 歸一化互資訊)

值域是 \([0,1]\)，值越高表示兩個聚類結果越相似。歸一化是指將兩個聚類結果的相似性值定量到 \(0\sim 1\) 之間。

\[\text{NMI}=\frac{2\sum_i\sum_jn_{ij}ln\frac{n_{ij}N}{n_in_j}}{-\sum_in_iln\frac{n_i}{N}-\sum_jn_jln\frac{n_j}{N}} \]

\[\text{NMI(Y,C)}=\frac{2\times I(Y;C)}{H(Y)+H(C)} \]

其中Y代表資料真實的類別；C表示聚類的結果。
\(H(\cdot)\) 表示資訊熵，\(H(X)=-\sum_{i=1}^N p(i)\log\ p(i)\)，此處的 \(log\) 以2為底。
\(I(Y;C)\) 代表互資訊， \(I(Y;C)=H(Y)-H(Y|C)\) ，互資訊是資訊理論裡的一種資訊度量，可以看成是一個隨機變數中包含的關於另一個隨機變數的資訊量。

例子

假定共有20個樣本，真實類簇為3個，而模型學習得到2個類簇，如下：

計算 \(Y\) 的資訊熵 \(H(Y)\)

H(Y) 表示資料真實標籤的交叉熵，它是一個固定的值。可以在聚類之前計算出。

\[\begin{split} H(Y)&=-\sum_{y=1}^3 P(Y=y)logP(Y=y)\\ &=-(\frac{1}{4}log(\frac{1}{4})+\frac{1}{4}log(\frac{1}{4})+\frac{1}{2}log(\frac{1}{2}))\\ &=1.5\ bit \end{split} \]
計算 \(C\) 的資訊熵
𝐻(𝐶)表示資料聚類後標籤的交叉熵，每得到一個聚類結果都需要計算一下。

\[\begin{split} H(C)&=-\sum_{c=1}^3 P(C=c)logP(C=c)\\ &=-(\frac{1}{2}log(\frac{1}{2})+\frac{1}{2}log(\frac{1}{2}))\\ &=1\ bit \end{split} \]
計算 \(Y\) 和 \(C\) 的互資訊

\[\begin{split} H(Y|C)&=H(Y|C=1)+H(Y|C=2)\\ &=-P(C=1)\sum_{y=1}^3 P(Y=y|C=1)logP(Y=y|C=1)\\ &-P(C=2)\sum_{y=1}^3 P(Y=y|C=2)logP(Y=y|C=2)\\ &=-\frac{1}{2}(\frac{3}{10}log(\frac{3}{10})+\frac{3}{10}log(\frac{3}{10})+\frac{4}{10}log(\frac{4}{10})\\ & +\frac{2}{10}log(\frac{2}{10})+\frac{7}{10}log(\frac{7}{10})+\frac{1}{10}log(\frac{1}{10}))\\ &=1.3639\ bit \end{split} \]
\[\begin{split} I(Y;C)&=H(Y)-H(Y|C)\\ &=1.5-1.3639\\ &=0.1361\ bit \end{split} \]
計算 \(Y\) 和 \(C\) 的歸一化互資訊

\[\begin{split} \text{NMI(Y,C)}&=\frac{2\times I(Y;C)}{H(Y)+H(C)}\\ &=\frac{2\times 0.1361}{1.5+1}\\ &=0.1089 \end{split} \]

[論文閱讀筆記] Adversarial Mutual Information Learning for Network Embedding
2021-06-12
筆記ORM
論文解讀（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》
2022-03-26
ORM
Python | 資訊熵 Information Entropy
2024-03-09
Python熵ORM
資料歸一化
2020-11-14
Variation information（資訊差異指標）
2019-12-11
ORM指標
殊途而同歸的資訊化與數字化
2022-05-20
論文解讀（ N2N）《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》
2022-04-01
ORM
資訊系統規劃（Information System Planning, ISP)
2019-06-26
ORM
資料變換-歸一化與標準化
2020-11-30
影像歸一化
2023-01-09
VMX - block by NMI和 NMI unblockinig due to IRET 之間的關係
2021-02-08
BloC
深度變分資訊瓶頸——Deep Variational Information Bottleneck
2024-11-28
ORM
批量歸一化BN
2020-11-19
潛在威脅資訊模型(PTIM)-Potential threats Information Modeling
2023-11-22
模型ORM
如何使用mysql 5.6 information schema定位事務鎖資訊
2019-11-08
MySqlORM
Information Retrieval（資訊檢索）筆記02：Preprocessing and Tolerant Retrieval
2020-09-27
ORM筆記
互資訊-協方差
2024-10-11
深度互學習-Deep Mutual Learning：三人行必有我師
2019-07-31
Sklearn之資料預處理——StandardScaler歸一化
2020-10-18
MySQL information_schema庫下的表型別資訊彙總
2019-03-15
MySqlORM型別
KNN演算法的資料歸一化--Feature Scaling
2018-10-30
KNN演算法
騰訊-廣點通轉化歸因
2023-03-10
Python資料預處理：徹底理解標準化和歸一化
2020-07-08
Python
1個好方案，幫你實現複雜資料來源中小區資訊的準確歸一化
2018-12-12
夏農熵-互資訊-entropy
2024-10-09
熵
Server 層混雜資訊字典表 | 全方位認識 information_schema
2019-01-11
ServerORM
Server層統計資訊字典表 | 全方位認識 information_schema
2018-12-03
ServerORM
特徵預處理之歸一化&標準化
2021-01-23
特徵
關於使用sklearn進行資料預處理 —— 歸一化/標準化/正則化
2018-03-27
梯度下降、過擬合和歸一化
2018-09-08
梯度
「GAN優化」詳解SNGAN(頻譜歸一化GAN)
2019-08-27
優化
對比歸一化和標準化 —— 量化分析
2019-04-28
Distributed Mutual Exclusion演算法詳解
2021-12-27
演算法
scikit-learn中KNN演算法資料歸一化的分裝
2018-10-31
KNN演算法
LayerNorm層歸一化和bn的區別
2024-07-06
ORM
UI（十六）資料持久化和歸檔NSCoding序列化
2018-07-30
UI持久化
InnoDB 層鎖、事務、統計資訊字典表 | 全方位認識 information_schema
2019-03-18
ORM
Tree – Information Theory
2018-05-23
ORM

Normalized Mutual Information(NMI, 歸一化互資訊)

Normalized Mutual Information(NMI, 歸一化互資訊)

例子

相關文章