資料探勘裡的“降維”----從五階魔方的玩法思考

mqp26180發表於2020-07-28

  上一週去聽了宮老師的K-NN,及神經網路的演算法課程。這一週本來準備深入研究一下,回來後,看到同事桌上的魔方,就開始還原了起來。實際上,從魔方的角度來思考我們資料探勘裡的一些演算法,發現,另有一番收穫。

  先說魔方,實際上,從三階往上來說,無論是四階,五階還是更高。其中的口訣很多,但是最根本的思想就是“降維”。就是把更高階的魔方降到我們熟悉的低階魔方,然後按照我們曾經的熟悉的方法來還原的。而對於資料探勘,好像也是這樣。魔方從高階降維到三階需要很長時間,而我們所需要挖掘的資料開始的資料準備及資料理解也是需要很大量的工作的。而所要建立的模型大部分就類似於我們經常玩的“三階魔方”。把我們加工好的資料放入“三階模型”裡,就可以套用相應的演算法公式來進行相應的分類。實際上,這兩者有許多共同之處。

  K-NN,K-MEANS這兩個演算法都是以K為中心值然後透過計算周圍數值的平均值,來均方差來估算最大的可能。這一方面有點類似於我們如何在魔方中以一面的中心點開始如何先將一面還原,繼而再去還原其他的面。裡邊的數學公式的推導是很繁雜。但是我們只要掌握住演算法是做什麼的,知道個大概就能夠從原始的資料中找到那個相應的K值。

  我們在用數學統計裡很多的模型是要用到三維的向量空間座標系,而我們實際的資料裡有許多的維度。如何能夠在我們圖中來分出相應的引數,找到相應的座標點,這是很重要的。比如說,在我們統計資料裡,有省份,性別,投資類別這樣的字元型資料,在三維的座標中,也許我們用數值來表示更容易區分,而這裡如何用數值來表達就很重要!性別好說,男可以為1,女可以為0,而省份,投資類別這因的資料,我們是人為指定1表示上海,2表示北京........這些的指定就不好說了。首先,人為指定有些麻煩,更況且這些指標是否影響到挖掘結果。這個我們無從得知!

  再反過來看魔方的玩法,在高階中(如五階),在中心6面對齊的前提下,透過先對齊稜的方法,使其“降維”為三階魔方。我們是否也可以用這樣的思想,先將這些數值型字元歸成大類,然後再在我們三維座標上標出其實際座標點,再去分析。

  資料探勘裡,一直強調的是挖掘思維,而不是挖掘演算法。但是挖掘演算法又是我們無法避開的環節,有時也在想,對於一個不懂統計的人來說,如何來理解這些演算法,也許並不那麼重要,重要的是我們要如何去使用。在網站挖掘專案中,我們在統計使用者的上網行為的時候,總是會有許多的引數來供我們分析,這些許多的引數就像那些高階魔方一樣,我們如何將之“降維”為我們所熟悉的三階魔方,然後對我們的使用者進行相應分類。這樣,也許是網站運營最為關係的。

  從營銷的角度來思考我們挖掘演算法,大道至簡,用簡單的方法去挖掘出我們要有的目標客戶,進而有相關的精準營銷。也許這才是我們資料探勘的根本意義。這樣,也便於向決策層講明我們的技術實現過程。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69976881/viewspace-2707350/,如需轉載,請註明出處,否則將追究法律責任。

相關文章