認知謬論:什麼是維度詛咒

banq發表於2022-02-14

你的資料越詳細,它就越缺乏洞察力。僅向圖形新增 1 個額外引數會導致圖形的體積呈指數增長,分散包含的資料點並刪除它們之間的有意義的關聯。
維度詛咒現象出現在數值分析、取樣、組合學、機器學習、資料探勘和資料庫等領域。這些問題的共同主題是,當維度增加時,體積空間的增長如此之快,以至於可用資料變得稀疏。為了獲得可靠的結果,所需的資料量通常會隨著維度呈指數增長。
這個短語,歸因於 Richard Bellman,是為了表達使用蠻力(又名網格搜尋)來最佳化具有太多輸入變數的函式的困難。
在今天的大資料世界裡,它也可以指當你的資料有大量維度時出現的其他幾個潛在問題。
  1. 如果我們的特徵比觀測值多,我們就會有大規模過度擬合模型的風險--這通常會導致糟糕的樣本外表現。
  2. 當我們有太多的特徵時,觀測值就會變得更難聚類--信不信由你,太多的維度會導致你的資料集中的每一個觀測值與其他的觀測值出現等距離。因為聚類使用了諸如歐幾里得距離這樣的距離測量方法來量化觀察結果之間的相似性,所以這是一個大問題。如果距離都是近似相等的,那麼所有的觀測值看起來都是一樣的(也是一樣的不同),就不能形成有意義的聚類。

可參考機器學習中 PCIA

相關文章