大資料與拓撲學(譯)

迷茫發表於2012-04-18

如我在前一個帖子中提到的,我打算寫一系列關於學習大型資料集方法的帖子,包括傳統的高維資料和應用在這個領域的拓撲學。有經驗的人(假設這個部落格中的大多數讀者)認為抽象幾何物件這個概念應該看起來十分簡單,但是解釋起來卻是很困難的,因此我將集中從術語定義開始。

抽象大型資料集的學習一般從兩個名稱開始:資料探勘(Data mining),脫胎於統計學領域,研究組織和總結高維資料的方式,以便於人類更容易理解這些資料;機器學習(Machine Learning),電腦科學的一個分支(特別是人工智慧),為了達到讓計算機作出決定的目標,尋找計算機組織和總結資料的方式。這兩個領域有許多共同點,但是我不會試圖對它們加以區分,還有這些方法在不同學科中應用的名詞,如生物資訊學和化學資訊學。還有眾人皆知的在市場營銷上的應用,它可以讓店主提前知道你將購買什麼

收集的資料通常是一組有序的N元組,它們來自科學實驗、調查或者零售商收集關於每次你使用信用卡的資訊等等。其中一些可以看做是帶有標籤的——例如特殊實驗的代號,其它的如座標和尺寸通常叫做特徵(features),如果這些特徵是數字,那麼我們可以認為它們是歐式空間的定義向量,這樣我們就初次瞥見了幾何學。然而,對於高維資料,歐式度量的結果是有問題的,因此我們常常要使用不同的度量方式。歐式度量在分析具有二元特徵的資料上也是有問題的,例如,同一有機體不同基因存在的問題。

因此,我們常常要考慮資料點的其他度量法。一個Kernel是一次非線性原始向量空間向更高維向量空間的嵌入過程,它允許在影像空間上使用拉回度量,但是,在實踐中,嵌入過程不是用來計算的,僅僅促使度量資訊的產生。

考慮使用相似測量(非度量)有時也是有效的:區間從1到0,當兩個點相同時用1表示,當不同時用0表示。歐式度量的高斯函式是一個非常流行的相似測量方式。還有非數值資料,可根據具體的情況使用不同的度量法進行分析,暫時先不要關心它。

通常這些資料是從概率分佈的向量空間上隨機選取的,這種分佈應該有一個非常明確的結構,例如已本地化的高餘維子流形分佈(being localized around a positive codimensional submanifold),但是由於資料中存在噪音,我們一般假設分佈支援的是一個開發集,當然,我們不會讓這些有限的多個資料點是支援離散分佈的,否則將會是一個過度擬合(overfitting)的例子,任何模型都應該避免這種情況的出現。

這裡有四個比較具體的研究人員試圖瞭解大型資料集的方法以及一些常用的演算法。這些方法和演算法有許多變數,但是這個表單至少是個良好的開端。我將在後續的帖子中更詳盡的描述他們。

1)投影——找一個從原始向量空間到低維空間(例如水平面)儘可能少的扭曲點與點之間關係的函式,當然,儘可能的線性投影,但是找到一個好的線性投影可不是一個平凡的工作。線性投影最流行的做法似乎是主成分分析法。如拓撲學,不過,我們可以想像線性預測潛在問題,特別是拓撲有趣集。自組織對映圖(有時稱為Kohonen map)產生一個本地/分段線性投影,似乎更像拓撲聲紋。更普遍的是,人們可以嘗試投到一個更有趣的拓撲低維流上,這叫做流形學習

2)特徵選擇——在一些高維資料中,有許多維度是噪音資料。特徵選擇是找出那些具有高訊雜比的問題。統計學方法可以逐個的檢查特徵/尺寸,但往往最好是一下子能看到特徵的子集。從拓撲學觀點,這僅僅是有限的線性投影形式,但是在實際中往往是一個單獨的問題型別。特別是人們普遍要投射到兩維或者三維的情況,但是對於特徵選擇,可以選擇超過兩個或者三個的特徵。 這兩個問題往往是進入下面兩個之一的前奏:

3)分類——這個問題和機器學習密切相關,通常被叫做監督學習:一組帶有標籤的收集資料,這些標籤告訴你它從哪兒來;另一組沒有標籤的收集資料,決定哪個標籤最適合他們,這就是“學習”,因為你可以通過思考標記的資料來進行訓練——你告訴計算機在不同情形下對於集合中每個元素應該做什麼樣的決定。然後電腦必須自己決定在其餘的情況下該做什麼,通常,人們要基於標籤資料建立一個合理的模型,然後丟擲原始資料並歸納出基於這個模型新問題。尤其是,經常要權衡是製造一個拓撲的、尖端的模型還是造一個計算廉價的。但是,如上所述,這個模型必須避免過度擬合。有許多不同的方法來解決這個問題。

4)聚類——這是一個基於幾何學來分隔資料(未標記)為小數量集的問題。它是資料探勘的核心問題,儘管在機器學習中它歸入非監督學習,即與非標記的資料工作。關於這個的一個流行演算法是K-means,它假設概率分佈是以K點為中心的高斯總和(a sum of Gaussians),並且嘗試去找到這些點。這個演算法由於計算效率而聞名,但是常常返回無用結果集。一個更合理做法是形成一個頂點是這些資料點的圖形,用邊連線點距低於一個給定閾值的點(或者高於一個給定閾值的點)。這個聚類問題轉換成了一個圖分隔問題——通過較少的邊分隔成相對較大的塊。

這些是比較實際的問題,儘管不像我們使用在拓撲學上的,但是有可能是一個沒有明確及最終答案的問題。相反,每個問題的最佳方法取決於特定的資料集和長期專案分析目標。因此,對於任何的方法,包括拓撲學啟發的,在適合的情況下都有可能非常有用。

原文標題:Big Data and the Topologist

原文連結:http://ldtopology.wordpress.com/2012/04/11/big-data-and-the-topologist/

相關文章