資料視覺化高階技巧——以哈伯曼癌症生存資料為例

hxc979891發表於2021-12-28

什麼是資料視覺化?

“一千個讀者就有一千個哈姆雷特。”這句話也同樣適用於資料分析,不同的人對於資料也會有著不同的理解。資料視覺化可以幫助我們以更簡單的方式去分析資料和找到資料背後隱藏的資訊。資料視覺化涵蓋的知識點非常多,我嘗試結合使用哈伯曼的癌症生存資料,來看看資料視覺化是如何幫助我們在一堆雜亂無章的資料中找到隱藏的資訊的,讓我們開始吧!

為什麼要做資料視覺化?

資料視覺化是一種可以透過資料建立故事的方式。當資料很複雜並且需要了解微觀細節至關重要時,最好的方法是透過視覺效果來分析資料。

 

視覺效果可用於兩個目的:

1、探索性資料分析:資料分析師、統計學家和資料科學家使用它來更好地理解資料。正如其名,它用於探索資料中隱藏的資訊和趨勢。

2、解釋性資料分析:一旦資料分析師理解了資料並找到了他們的結果,傳達他們想法的最佳方式就是透過視覺效果。資料視覺化就像是創作一個故事,以達到吸引觀眾閱讀的目的。

 

的探索性分析

該資料集包含 1958 年至 1970 年在芝加哥大學比林斯醫院進行的一項研究案例,該研究主要針對接受過乳腺癌手術的患者的生存情況。

 

屬性包括

手術時患者年齡(數字)

患者的手術年份(年份 – 1900,數字)

檢測到的陽性腋窩淋巴結數量(數字)

生存狀態(類別屬性)

1 = 患者存活 5 年或更長時間

2 = 患者在 5 年內死亡

 

讓我們首先從使用統計來理解資料開始:

 

我們看到有 306 行和 4 列。進一步檢視屬性後,我們瞭解了資料的分佈方式。為了進一步瞭解每個類的示例數量,讓我們看看不同的圖。

 

直方圖

這裡可以看到兩種狀態下的患者都是在30到 80年在兩個年齡段之間重疊,而40-60歲這個年齡段的比例都是最高的,60-80歲年齡段的人生存和死亡的機會相等,80歲以上的人無法存活的可能性更高。但是,僅憑年齡無法判斷一個人是否會存活。

 

箱形圖

箱線圖可以告訴我們兩種生存狀態下,患者的淋巴結數量的最大值、最小值、中位數、四分位數分佈以及異常值分佈情況。

 

散點圖

我們從零散的點看,無論在哪一年,有0個淋巴結的患者都是倖存者。這是否意味著只要是0個淋巴結的患者都能確保生存?

 

小提琴圖

小提琴圖用來顯示資料分佈和機率密度,中間的黑色粗條表示四分位數範圍,從其延伸的幼細黑線代表 95% 置信區間,而白點則為中位數,從上述圖形中可以看出兩種生存狀態下的倖存者的淋巴結數量分佈是不一樣的。

 

根據上述的案例,我們從視覺效果中學到很多東西,為了方便大家更好地學習資料視覺化,我整理了一些必備的資料視覺化工具來幫助您入門。

 

資料視覺化工具

Tableau :視覺化功能非常強大,主要應用在商業圖表上。

Power BI :微軟自家的視覺化工具,功能強悍,可用於做多維分析、資料清洗、資料視覺化等工作。

Excel :這個不用多說了,職場必備的資料分析與視覺化工具。

Smartbi 智分析 :這是國產資料分析工具裡用的非常廣泛的工具,線上上就可以直接使用,無需安裝客戶端。圖形化介面也非常豐富,包含了地圖視覺化、詞雲圖、桑基圖等個性化的圖形,視覺化功能非常強大。

 

資料視覺化方法論

配色方案 :雖然顏色可以為圖表增添美感,但通常最好使用顏色來突出重要的細節,而不僅僅是為了吸引人,太多的顏色會破壞著色的目的,而使用單一顏色或一種顏色則會閱讀者。此外,在設計視覺效果時還要考慮視障人士,直觀地使用顏色。例如:對於情感分析,我們可以使用綠色表示積極情緒,紅色表示消極情緒,黑白灰表示中性情緒。

 

圖形使用 :不一樣的圖形可以表達出不同的含義,例如餅狀圖表示佔比,線圖表示趨勢,柱圖可表示對比,使用圖形時要根據圖形的特性去適當運用。

 

使用註釋 :在需要的地方使用標籤進行註釋,可以讓圖表裡的資訊更加全面,但切記不要造成圖表混亂。

 

使用互動式圖表 :如果資料量比較大,變數非常多,可以使用互動式報表進行動態展示,例如BI圖表。

 

刪除不重要的資訊 :從圖表中刪除可能分散觀眾注意力的不必要的資訊,不要在單個視覺物件中將多個檢視組合到難以理解的程度。

 

製作一個完整的故事 :把資料視覺化的過程當成是故事的創作過程,讓讀者可以沉浸集中並能領會到作者的意圖。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69980489/viewspace-2849793/,如需轉載,請註明出處,否則將追究法律責任。

相關文章