非完整資料聚類初探

舞動的心發表於2021-06-10

目錄

1基於模糊C均值的非完整資料聚類 (TSMC, 2001)

1.1動機

1.2貢獻

1.3實驗分析

1.4我的思考

2 基於懲罰不相似方法的缺失值聚類 (Machine Learning, 2018)

2.1 動機

2.2 貢獻

2.3實驗分析

2.4 我的思考

3 基於最優運輸的深度分佈保留(Distribution-preserving)非完整資料聚類 (arXiv, 2021)

3.1 動機

3.2 貢獻

3.3 實驗分析

3.4 我的思考

4 基於Split神經網路含缺失特徵的層次聚類的魯棒性探討 (AAAI, 2021)

5 如何採用Rubin規則衡量面向缺失資料聚類的效能? (arXiv, 2020)

 

面向非完整資料的聚類,目前分為兩種框架,分別是非完整多檢視聚類和非完整單檢視聚類。然而,兩階段的聚類模型,容易忽略填補對聚類過程的負面影響。同時,有文章表明非完整資料聚類,其核心是儘量緩解由缺失值導致的聚類中心偏移或者不確定性的問題。

本期分享關注單檢視的非完整資料聚類,即原始資料含缺失,對含缺失的原始資料執行聚類操作。

下面分析一下關於致力於聚類的填補一點思考:

傳統的先填補後聚類的想法,在標籤缺乏的情況下,只能從已有的完整資料分佈中進行學習,從而協助填補,但是此時填補對於聚類的好壞無法評判。聚類是無監督學習,此時填補是不帶標籤的填補,即無法評估填補的好壞。

兩階段的方式,並不能保證對下游任務是最優的。此外,填補的好壞在聚類任務中是無法評估的,但是其終極目的還是為下游任務提供服務。在實際包含缺失且標籤缺乏的序列資料中,填補的好壞評判是一個偽命題。因此,此時採用一階段,通過聚類來指導填補,同時填補更加有利於聚類。

真實資料的填補,由於沒有標籤,所以就沒有判別的準則。但是已有的文章說有已有的完整資料,來指導缺失的資料進行填補,這樣的思路,在實際的實驗過程中,是否可行?是否需要用相似度來衡量填補的好於壞呢?

最後放一下關於三種不同缺失模式的解釋,此處解釋的原始來源於我對接的大三本科同學的週報內容:

缺失值分為兩種:存在但尚未被觀測到,或根本不存在。

1)MCAR,完全隨機缺失:

定義:某個變數是否缺失與它自身的值無關,也與其他任何變數的值無關。例如,由於測量裝置出故障導致某些值缺失。

特點:MCAR機制方便我們處理資料,但往往不切實際。

2)MAR,隨機缺失:

定義:某個變數是否缺失與它自身的值無關,但和其他變數已觀測到的值有關。如:人們是否透露收入可能與性別、教育程度、職業等因素有關係。如果這些因素都觀測到了,而且儘管收入缺失的比例在不同性別、教育程度、職業的人群之間有差異,但是在每一類人群內收入是否缺失與收入本身的值無關,那麼收入就是隨機缺失的。

特點:MAR比MCAR更具一般性,更符合實際。現代缺失資料方法通常從MAR假設開始。

3)MNAR(NMAR),非隨機缺失:

定義:某個變數是否缺失不僅和其他變數的值有關,還與它自身的值有關。如:在控制了性別、教育程度、職業等已觀測因素之後,如果收入是否缺失還依賴於收入本身的值,那麼收入就是非隨機缺失的。

特點:三種缺失機制中最複雜的一種。處理策略是找到有關缺失原因的更多資料,或者用假設分析來檢視結果在各種情況下的敏感性。

 


1基於模糊C均值的非完整資料聚類 (TSMC, 2001)

原文

程式碼:暫無

1.1動機

現實生活場景中,由於資料採集和儲存不當,導致資料經常是缺失的。模糊C均值(FCM)演算法是一種有效的聚類演算法,然而不能直接用於非完整資料的聚類。

1.2貢獻

本文針對傳統的FCM不能用於缺失資料聚類的問題,提出了四種面向非完整資料聚類的策略,其中三種屬於FCM演算法的修改版本,並且這四種方法都提供了聚類中心位置的估計值和資料的模糊分割槽。

本文方法的目標是將資料集劃分為模糊的簇,並給出其聚類簇中心的估計值。具體的示例圖如下:

上圖1左邊表示完整的資料,對應下方兩個圓圈的簇中心。圖1右邊表示缺失後的資料,而實際可能會預估出四個不同的簇中心位置。上述示例說明了不完整資料資料所面臨的一個固有的困難問題。

(1)整體資料策略(Whole Data Strategy, WDS)

如果不完整資料的比例很小,那麼可以簡單地刪除所有不完整資料,對剩餘的完整資料應用FCM。本文將其稱為整體資料策略(WDS)。上述簡單策略實施的前提是,完整可觀察到的資料佔比大於75%。

本策略可能對估計簇中心起到有效作用,然而其沒有利用對應列的完整資訊,從而造成了資訊缺失。本文將該策略簡稱為WDSFCM。

(2)部分距離策略(Partial Distance Strtegy)

本策略是由Dixon[1]推薦使用所有可用的(即非缺失的)特徵值來計算部分(歐幾里得)距離,然後用所使用組分比例的倒數來縮放這個量。本文將其稱為部分距離策略(partial distance strategy, PDS)。具體估計公式如下:

    本文將上述策略稱為PDSFCM。採用上述策略可以直接為包含缺失資料計算到具體簇中心的隸屬度,或者說軟標籤。

(3)最優補全策略 (Optimal Completion Strtegy, OCS)

第三種不完整資料的FCM聚類方法是基於我們所說的最優補全策略(OCS)。在這種方法中,我們視缺失的元件為我們優化的額外變數,以獲得FCM函式的最小可能值。也就是說,我們的策略是通過使給定可用資料的可能值最小的方式來補全資料集缺失的部分。對FCM的這種修改,在這裡稱為OCSFCM。

具體的演算法步驟如下:

 

 

 

  

我的個人見解:採用模糊的簇中心,以及當前的資料隸屬度來完成對應資料缺失部位的補全,並且使得最終的簇中心估計的損失最小。本策略其中的距離計算採用的是策略2中PDSFCM演算法公式。

(4)最近原型策略(Nearest Prototype Strategy, NPS)

     最後一種方法使用最近原型策略(NPS),可以描述為OCSFCM的一個簡單修改。將OCSFCM演算法中的步驟5:

 

修改為如下:

 

在一個不完整的資料與兩個或多個原型的距離相等的罕見情況下,在定義時必須使用打破平局的規則。雖然NPSFCM在所有數值試驗中都是終止的,但我們還沒有從理論上確定該過程必須收斂。

1.3實驗分析

本文的實驗主要對比WDS, PDS,OCS和NPS結合FCM執行非完整資料距離的效果。其中,WDS適用缺失率低可直接忽略資料,PDS直接使用缺失的資料執行距離計算,即不需要採用填補手段,而OCS和NPS均是對缺失部分執行了填補,而NPS則是採用了PDS含缺失資料計算距離的思路,對OCS演算法最後一步的填補進行了置換。

基於後四列的誤差,OCS方法的原型估計精度至少與其他方法相同。最簡單的策略,WDS,提供了高達20%的良好測試錯誤。儘管PDS、OCS和NPS的總體準確率和誤分類誤差在最壞的情況下(75%)非常相似,但PDS方法幾乎總是比其他三種方法需要更少的迭代。

上圖是作者仿照IrIs資料集做的人工合成缺失資料實驗,最終距離成為兩個簇,剛好和文章的圖1和圖2對應。

另外,是距離效果相差不大的情況下,即當資料結構清晰時,所有四種方法都相當平等,在這種情況下最好的選擇可能是選擇 WDS 或 PDS,它們都比 OCS 和 NPS 終止得更快。

WDS能夠以最快的速度收斂。同時,就分類錯誤而言,NPS 和 OCS 是整體表現最好的。PDS 和 WDS 在終端原型精度方面表現良好。

1.4我的思考

本文的策略2提出的PDS策略,直接採用含缺失資料計算距離執行聚類的思想,能夠在有效確保原始資料資訊不丟失的情況下,只能聚類,並且還不會引入填補的誤差,這個誤差有好也有壞。這樣的策略,可以反映一個問題:即非完整資料的聚類並不一定需要補全,關於該策略後續看看有沒有最新的文章能夠分析清楚該問題。

 


2 基於懲罰不相似方法的缺失值聚類 (Machine Learning, 2018)

原文

程式碼

2.1 動機

許多真實世界的聚類問題都被不完整的資料所困擾,這些資料的特徵是缺少某些或所有資料例項的特性。如果不進行填補或邊緣化預處理,傳統的聚類方法是不能直接應用於這類資料。

零填補和均值填補,其目的均是為分類或者聚類服務,但是這樣的填補是屬於兩階段,割裂了與分類或者聚類的聯絡。另一方面呢,目前已有的填補方法追求填補的好於壞,這是建立在有完整資料的假設前提下,這在實際真實缺失的填補是無意義的,或者說是一個假命題。

假命題的解釋:如果缺失位置對應的其它資料只能擁有很少或者有效的真實分佈,那麼在這樣的情況下執行填補是無意義的。那麼在這樣的情況下,簡單地執行零填補或者均值填補,或者對當前所在列缺失較大的資料全部捨棄處理,直接對包含有效資訊的完整未缺失或者缺失程度較小的資料執行聚類可能會更好。

另外,一般把原始完整資料進行缺失處理後,原始的資料分佈可能就會發生變化,即其有較大可能變成了一種不同的分佈,此時在這樣的分佈上進行填補,其核心目的是為了聚類更好,而不是為了填補更好。如果是為了填補更好,按這個問題就是研究填補了,而不是聚類。此外,填補也是不可避免會為聚類帶來偏差和誤差。

當缺失位置的特徵資料依賴於觀察到的特徵時,此時填補的好很大可能是有利於聚類,反之則可能沒有幫助,甚至會導致聚類效果變差。

缺失值進行忽略或者邊緣化不能應用於有大量缺失值的資料,因為它可能會導致大量資訊的丟失。因此,需要用複雜的方法來填補資料中的空缺,從而可以隨後使用傳統的學習方法。

然而,這些技術中的大多數都假定缺失模式為MCAR或MAR,因為這允許使用更簡單的缺失模型。這樣簡單的模型不太可能在MNAR情況下表現良好,因為缺失模式也包含資訊。由於MNAR缺失模式的資料也包含重要資訊, 因此必須設計其他方法來處理不完整的資料。此外,先填補再聚類往往會導致資料中引入噪聲和不確定性

2.2 貢獻

在本文中,我們利用一種懲罰性的不相似測度來克服這一缺陷,我們稱之為基於特徵加權懲罰的不相似測度不同(FWPD)。利用FWPD測度,我們對傳統的k-means聚類演算法和標準的分層聚類演算法進行了改進,使其直接適用於特徵缺失的資料集。 (即無需填補,直接採用包含缺失的原始資料,且不會丟失原始資料資訊的情況下執行聚類操作)

我們對這些新技術進行了時間複雜度分析,並進行了詳細的理論分析,表明新的基於FWPD的k-means演算法在有限的迭代次數內收斂到區域性最優。我們還提出了一種詳細的模擬隨機和特徵依賴缺失的方法。

由於公共觀測子空間中的距離不能反映未觀測子空間中的距離,PDS得到了不恰當的距離估計值。如前所述,這是PDS(2001年TSMC的部分距離相似)方法的主要缺點。由於兩個資料例項之間的觀察距離本質上是它們之間歐幾里德距離的一個下界(如果它們被完全觀察到的話),在這個下界上加一個適當的懲罰可以得到實際距離的一個合理的近似。本處提到的基於懲罰項的部分距離相似策略,和PDS的區別在於加了一個簡單的懲罰專案,簡單示例如下:

 

不同缺失填補處理策略,和原始真實完整資料直接的距離差異如下:

 

特徵權重懲罰項的定義如下:

 

 

 

 

依據上述的特徵權重懲罰項,結合PDS距離,和定義的相關聯的超引數alpha,得到的基於特徵權重懲罰項的距離度量公式如下:

 

 

結合上述提到的FWPD距離相似度量策略,本文作者將其集合K-means演算法執行距離,即可以直接對非完整缺失且無需填補操作的距離,具體步驟如下:

 

其中z表示簇中心,u表示當前資料屬於哪個簇,最後依據u和原始資料x進行加權平均求取最終的簇中心。

 

2.3實驗分析

本文實驗所用資料集如下:

 

上述未使用真實缺失資料集,去拿不都是UCI或者JGD上面的真實完整資料集。

下述實驗結果用於表明K-means-FWPD與多種先填補後聚類方法模型的對比,分別在四種不同缺失機制下的實驗結果:

 

 

 

    上述實驗結果表明,本文提出的無需填補的K-means-FWPD方法的聚類效果要明顯優於先填補後聚類的方法。另外,採用KNNI執行填補然後聚類的效果要大概率優於零填補、均值填補和SVDI填補方法,說明設計好的填補方法大概率也是有利於聚類。

2.4 我的思考

    本文最大的亮點在於深入探討分類不填補和相對於填補聚類的優勢,並且分析了三種不同缺失機制下的聚類效果,並且進行了分析。本文的實驗內容比較詳盡,可以作為直接採用原始缺失資料執行聚類,本文的方法可以重點考慮作為採用填補結合聚類模型的重點baseline方法。在非完整資料聚類的研究中,後續可以考慮如何採用深度學習模型對含缺失的資料直接執行聚類,而無需填補的操作。

 


3 基於最優運輸的深度分佈保留(Distribution-preserving)非完整資料聚類 (arXiv, 2021)

原文

程式碼:暫無

3.1 動機

聚類是計算機視覺和機器學習領域的一項基本任務。雖然已有各種方法被提出,但現有方法在處理不完整的高維資料(這在現實應用中很常見)時效能會急劇下降。

3.2 貢獻

為了解決這一問題,我們提出了一種新的深度不完全聚類方法,即DDIC-OT (deep Distribution- preserving incomplete clustering with Optimal Transport)。為避免現有方法中全觀測樣本較少而導致樣本利用率不足的問題,我們提出用最優傳輸度量分佈距離來進行重建評估,而不是傳統的畫素級損失函式。此外,引入潛在特徵的聚類損失,使嵌入規則化,具有更強的識別能力。因此,該網路對缺失特徵具有更強的魯棒性,而將聚類和樣本imputation結合起來的統一框架使這兩個程式能夠更好地相互協商服務。

本文模型的框架如下:

 

OT的分佈Loss定義如下:

 

 

 

 

本文的聚類Loss沿用了ICML2016年的DEC中的KL散度Loss, 其聯合優化思路沿用了IJCAI2017年的IDEC模型和框架,具體如下:

 

3.3 實驗分析

本文兩階段中的深度填補方法策略中的GAIN, VAEAC和MIWAE方法都是MDIOT填補方法(ICML, 2020)文章中的重點對比方法,即其填補的效果都要比MDIOT差。本文采用了六種高維資料集,具體的缺失處理機制在文章中沒有說明,具體的實驗效果如下:

 

 

 

消解實驗分析如下:

 

模型的初始化填補值的分析如下,分別採用零值和均值填補處理:

 

3.4 我的思考

   本文最大的貢獻在於將IDEC 2017年的IJCAI文章中的重構loss置換為了OT分佈Loss,然後對於原始高維缺失資料採用Encoder-Decoder模型進行embedding的學習,並且採用OT分佈Loss進行樣本分佈上的重構,而以往的完整資料是基於原始圖片畫素級別的重構。本文模型的實質是沒有對原始相似缺失部分進行填補處理,而是對學習的特徵表示進行Decoder後採用OT loss執行樣本分佈上面的重構。

   然而,對於OT loss實現樣本分佈層面的重構後,就能大幅提高最終的聚類效果:我的猜想,即原始未缺失部分的資料就具有較強的聚類判別效能,而採用簡單的零值或者均值填補後,很大可能會引入填補的誤差,即使得聚類效能變壞的誤差。而且本文采用的高維資料集都是IDEC文章中和DEC2016ICML文章中模型經過精細化調參能夠學習良好Embedding執行聚類的資料集。對於本文模型的魯棒性,如果嘗試採用MNAR和MNR缺失機制引數的高維資料集,或者採用CIFAR10等三維畫素資料集,採用MCAR缺失處理,然後使用本文的模型執行聚類的效果可能並不能取得理想的結果。

   最後,對於本文的實驗,其中最大的一個質疑就是:作者沒有提供其在真實高維缺失資料集上的聚類效果,本文所使用的資料集都是影像或者文字領域最基準的baseline資料集,其缺失處理都是人工製造的缺失,相關資料集的聚類可能會受到模型的encoder影響較大,如果換一個真實的非完整資料集執行聚類分析,模型的魯棒性需要等待進一步驗證和分析。此外,本文對於缺失的機制(PS:目前公認有三種,分別是MCAR, MNAR和MNR)沒有探討和分析,這也是本文一個亟需解決的問題。

 


4 基於Split神經網路含缺失特徵的層次聚類的魯棒性探討 (AAAI, 2021)

原文

程式碼

本文基於一篇2018年直接採用缺失資料訓練神經網路的工作,提出了一種層次聚類的分割神經網路,能夠直接對非完整資料(只需要執行簡單的均值填補)進行建模學習,從而提高最終的分類效果(或者說能夠達到較好的分類效果,且只需要簡單的填補處理)。

本文的標題中雖然又說是做聚類,但是其實際的任務是做分類,另外本文一個AAAI的學生版本,總共只有兩頁,不過本文在後續可以考慮作為含缺失資料聚類的深度學習模型作探討和研究。

 


5 如何採用Rubin規則衡量面向缺失資料聚類的效能? (arXiv, 2020)

原文

程式碼:暫無

本文表明多重填補是處理缺失資料的常用方法,但是如何評估非完整資料聚類的不穩定仍然是一個問題。針對上述問題,本文提出採用bootstrap理論集合多重填補解釋了不完整資料聚類的不穩定性問題。

 

 

相關文章