獨特的資料視覺化技術,用於深入瞭解資料。當我們觀想它時,它的美就顯現出來了。視覺化是一種更方便的方式,可以一目瞭然地瞭解大量資料。在深入分析的情況下,我們應該用資料圖形表示技術的思想。我們經常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等這些典型的圖,這些圖對於資料視覺化是必不可少的。除了這些被廣泛使用的情況外,還有許多精湛的情節卻很少被使用。當我們考慮分析資料並以藝術方式表示時,這些圖有助於發現洞察。1 平行座標圖
實際上,我們最多可以視覺化 3 維資料。但有時,我們需要視覺化超過 3 維的資料才能獲得洞察力。我們經常使用 PCA 或 t-SNE 來降維並繪製它。在降維的情況下,可能會丟失大量資訊。在某些情況下,我們需要考慮所有需要,平行座標圖有助於做到這一點。看上面的圖片。水平線(平行軸)代表鳶尾花的特徵(Petal length, Sepal length, Sepal width, Petal width) 。類別是Setosa, Versicolor and Virginica。上圖將物種編碼為Setosa →1、Versicolor →2 和 Virginica →3。每個平行軸包含最小值到最大值(例如,花瓣長度從 1 到 6.9,萼片長度從 4.3 到 7.9,等等)。例如花瓣長度軸,表明該品種的花瓣長度Setosa 與其他兩個品種相比較小,且Virginica 最高。所以,透過這張圖,我們可以很容易地得到資料集的整體資訊。2 六角裝箱圖
六角裝箱是用六邊形二維數值的密度直觀地表示資料點的過程。利用上面的資料集來繪製的六邊形分箱圖。如果仔細觀察,我們會發現總面積被分成了無數個六邊形。每個六邊形覆蓋特定區域。我們注意到六邊形有顏色變化。六邊形有的沒有顏色,有的是淡綠色,有的顏色很深。根據圖右側顯示的色標,顏色密度隨密度變化。比例表示具有顏色變化的資料點的數量。六邊形沒有填充顏色,這意味著該區域沒有資料點。3 等值線圖
二維等高線密度圖是另一種視覺化特定區域中資料點密度的方法。這樣做是為了找到兩個數值變數的密度。例如,下圖顯示了每個陰影區域中有多少資料點落入。4 QQ-plot圖
QQ 代表 Quantile — Quantile plot (Quantile/percentile 是一個範圍,在這個範圍內,指定百分比的資料已經下降。例如,第 10 個 quantile/percentile 表示在該範圍下,找到了 10% 的資料,找到了 90%超出範圍)。這是一種直觀地檢查數值變數是否服從正態分佈的方法。(a) 樣本分佈 (b) 標準正態分佈
圖(a)是樣本分佈;另一方面,(b)是標準正態分佈。對於樣本分佈,資料範圍為10 到 100 (100% 資料在 10 到 100 之間)。但對於標準正態分佈,100% 的資料在範圍內-3 到 3 (z-score)。在 QQ 圖中,兩個 x 軸值均分為 100 個相等的部分(稱為分位數)。如果我們針對 x 和 y 軸繪製這兩個值,我們將得到一個散點圖。散點圖位於對角線上。這意味著樣本分佈是正態分佈的。但是,如果散點圖位於左側或右側而不是對角線,則表明樣本不是正態分佈的。5 小提琴圖
小提琴圖與箱線圖相關。我們從小提琴圖中獲得的另一個資訊是密度分佈。簡單來說就是一個結合了密度分佈的箱線圖。因此,讓我們將其與箱線圖進行比較。在小提琴圖中,小提琴中間的白點表示中點。實心框表示四分位數間距 (IQR)。上下相鄰值是異常值的圍欄。超出範圍,一切都是異常值。下圖顯示了比較。6 旭日圖
它是圓環圖或餅圖的定製化版本,將一些額外的層次資訊整合到圖中。整個圖表被分成一些環(從內側到外側)。它包含層次資訊,其中內環位於層次結構的頂部,外環位於較低的順序。如果我們仔細觀察資料集,第一列包含一年的季度;每個季度下面有幾個月,每個月有幾個星期。上面的旭日圖描述了這種情況。小結
資料視覺化是資料科學不可或缺的一部分。在資料科學中,我們探索資料。少量資料手動分析還好,但是當我們處理成千上萬的資料時,它就變得非常繁重,有時甚至是不可能的。如果我們無法找出資料集的趨勢和見解,我們可能無法使用該資料。希望上面的圖可以幫助您從美學上視覺化資料並深入瞭解資料。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024420/viewspace-2926406/,如需轉載,請註明出處,否則將追究法律責任。