資料探勘裡的“降維”----從五階魔方的玩法思考
上一週去聽了宮老師的K-NN,及神經網路的演算法課程。這一週本來準備深入研究一下,回來後,看到同事桌上的魔方,就開始還原了起來。實際上,從魔方的角度來思考我們資料探勘裡的一些演算法,發現,另有一番收穫。
先說魔方,實際上,從三階往上來說,無論是四階,五階還是更高。其中的口訣很多,但是最根本的思想就是“降維”。就是把更高階的魔方降到我們熟悉的低階魔方,然後按照我們曾經的熟悉的方法來還原的。而對於資料探勘,好像也是這樣。魔方從高階降維到三階需要很長時間,而我們所需要挖掘的資料開始的資料準備及資料理解也是需要很大量的工作的。而所要建立的模型大部分就類似於我們經常玩的“三階魔方”。把我們加工好的資料放入“三階模型”裡,就可以套用相應的演算法公式來進行相應的分類。實際上,這兩者有許多共同之處。
K-NN,K-MEANS這兩個演算法都是以K為中心值然後透過計算周圍數值的平均值,來均方差來估算最大的可能。這一方面有點類似於我們如何在魔方中以一面的中心點開始如何先將一面還原,繼而再去還原其他的面。裡邊的數學公式的推導是很繁雜。但是我們只要掌握住演算法是做什麼的,知道個大概就能夠從原始的資料中找到那個相應的K值。
我們在用數學統計裡很多的模型是要用到三維的向量空間座標系,而我們實際的資料裡有許多的維度。如何能夠在我們圖中來分出相應的引數,找到相應的座標點,這是很重要的。比如說,在我們統計資料裡,有省份,性別,投資類別這樣的字元型資料,在三維的座標中,也許我們用數值來表示更容易區分,而這裡如何用數值來表達就很重要!性別好說,男可以為1,女可以為0,而省份,投資類別這因的資料,我們是人為指定1表示上海,2表示北京........這些的指定就不好說了。首先,人為指定有些麻煩,更況且這些指標是否影響到挖掘結果。這個我們無從得知!
再反過來看魔方的玩法,在高階中(如五階),在中心6面對齊的前提下,透過先對齊稜的方法,使其“降維”為三階魔方。我們是否也可以用這樣的思想,先將這些數值型字元歸成大類,然後再在我們三維座標上標出其實際座標點,再去分析。
資料探勘裡,一直強調的是挖掘思維,而不是挖掘演算法。但是挖掘演算法又是我們無法避開的環節,有時也在想,對於一個不懂統計的人來說,如何來理解這些演算法,也許並不那麼重要,重要的是我們要如何去使用。在網站挖掘專案中,我們在統計使用者的上網行為的時候,總是會有許多的引數來供我們分析,這些許多的引數就像那些高階魔方一樣,我們如何將之“降維”為我們所熟悉的三階魔方,然後對我們的使用者進行相應分類。這樣,也許是網站運營最為關係的。
從營銷的角度來思考我們挖掘演算法,大道至簡,用簡單的方法去挖掘出我們要有的目標客戶,進而有相關的精準營銷。也許這才是我們資料探勘的根本意義。這樣,也便於向決策層講明我們的技術實現過程。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69976881/viewspace-2707350/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 魔方二階玩法[圖解]圖解
- 資料治理對運維資料體系的思考與啟發 | 運維進階運維
- 運維平臺的建設思考-後設資料管理(五)運維
- 資料分析中的降維方法初探
- 【系列】思考:資料探勘應用的幾種誤區
- 【Python資料探勘課程】七.PCA降維操作及subplot子圖繪製PythonPCA
- 資料預處理–資料降維
- 機器學習基礎-資料降維機器學習
- Hadoop大資料探勘從入門到進階實戰Hadoop大資料
- 小資料大用場:銀行大資料探勘的五個切入點大資料
- 資料探勘的功能
- 神奇的資料探勘
- 關於資料庫安全的五點思考資料庫
- 利用PCA進行資料降維PCA
- 資料探勘的資料分析方法
- 回首五年運維,運維需要思考運維
- 資料探勘者與資料探勘青年的對話(轉)
- 人工稚能之sklearn資料降維
- pip 的高階玩法
- SAPABAP裡資料庫表的StorageParameters從哪裡來的資料庫
- [譯] 降維技術中常用的幾種降維方法
- 資料降維和特徵工程方法綜述特徵工程
- 成功入職騰訊,總結近五年的學習資料,從SSM到高階架構師都在這裡了SSM架構
- 機器學習(五):混合高斯聚類GMM(求聚類標籤)+PCA降維(3維降2維)習題機器學習聚類PCA
- 如何從資料庫 11.2 降級至之前的版本資料庫
- 從小白到大神:快速掌握資料探勘的學習路徑!
- 大資料、資料分析、資料探勘的差別大資料
- SAP ABAP裡資料庫表的Storage Parameters從哪裡來的資料庫
- 資料分析中的五大思維方法
- 資料分析的五大思維——資訊圖
- Python有哪些資料探勘工具?五大類Python
- 運維平臺的建設思考-後設資料管理運維
- 資料探勘之資料準備——原始資料的特性
- 資料探勘的過程有哪些
- 資料探勘的辦法有哪些
- 資料探勘的步驟有哪些?
- 資料探勘的10種分析方法
- DevOps 與研發效能資深技術專家張樂:研發效能的升維思考與降維執行dev