4. 顏色比例尺
資料視覺化中顏色有三種應用場景:(i)用顏色來區分資料集;(ii)用顏色來代表資料集;(iii)用顏色來突出資料。如何選擇並使用顏色在這三種情況下各有不同。
4.1 用顏色來區分資料集
我們經常使用顏色作為區分不具備內在順序關係的離散專案或分組的手段,例如地圖上不同的國家,或者某個產品的不同製造商,此時,我們使用定性的顏色比例尺。這種比例尺包括一組有限的顏色集,彼此截然分明,而又殊途同歸(distinct from each other while also being equivalent to each other)。後者要求任何一個顏色不應特別突出,同時顏色之間不能有明顯順序關係——就像一組遞進變亮的顏色,此時顏色所代表的專案也會被認為有順序關係,而根據定義,這些專案應該是無序的。
幸運的是,我們可以很容易地在社群中獲取理想的定性顏色集。圖 4.1 列出了三種顏色集。值得一提的是,ColorBrewer 專案提供了一系列好看的顏色集,包括從極淺到極深的色系。
顏色集示例。Okabe 會作為本書預設顏色集,ColorBrewer Dark2 和 ggplot2 hue 也應用廣泛。
圖 4.2 給出瞭如何應用顏色集的示範,圖上展示了 2000 年到 2010 年美國各州的人口增長率。我已經根據增長率大小對各州進行了排序,然後基於地理位置不同新增顏色。從圖上我們可以看出,同一個區域的州有著較為接近的人口增長率。值得一提是,西部和南部城市相對於中西部和東北部有著更快的人口增長率。
圖 4.2: 美國各州人口增長率
4.2 用顏色來代表資料集
顏色也可以用來代表資料集,比如收入、溫度和速度。此時,我們應該選擇連續型顏色比例尺。連續型顏色比例尺包含了一組顏色,顏色之間能夠明確傳遞出(i)資料之間的大小關係,(ii)資料之間的距離。第二點意味著顏色比例尺在完整區域內需要均勻分佈。
連續型比例尺可以基於色相(hue)分佈(從深藍色到淺藍色),或者是多色相分佈(深紅色到淺黃色)(圖 4.3)。多色相分佈一般遵循自然界的顏色漸變關係,例如深紅色、綠色或藍色,過渡到淺黃色,或者深紫色到淺綠色。相反,如果是深黃色到淺藍色,看起來就不太自然了,不太適合使用。
圖 4.3:連續型顏色比例尺。ColorBrewer Blues 是一個單色變化的比例尺(從深藍到淺藍)。Heat 和 Viridis 則是多色相比例尺,分別是從深紅色到淺黃色,以及從深藍色到綠色再到淺黃色。
連續型顏色分佈尤其適合跟地理分佈相關的資料集。圖 4.4 中我們展示了一副用顏色來代表資料的地圖分佈圖。這種地圖術語叫做 choropleths。圖上展示了得克薩斯州各縣年收入的中位數。
圖 4.4:德克薩斯州各縣年收入年收入的中位數。顏色從淺到深,分別代表該縣年收入中位數從低到高。
某些情況下,我們需要將資料集的偏差視覺化為相對於一箇中性點兩個方向的分佈。最直接的例子就是一組具有正數和負數的資料集。如果我們用顏色來區分這些資料,那麼我們一眼就能看出哪些是正值或負值,以及離中心點的方向和偏移量。這時候適用的顏色比例尺叫做分散型顏色比例尺(diverging color scale)。分散型顏色比例尺我們可以理解為兩段連續型顏色比例尺通過一箇中心點來連線,中心點通常是淺色的(圖 4.5)。分散比例尺需要平衡兩端的顏色分佈,從中心點到兩側深色位置要大致相同。否則,兩側的資料集只能和中心點做比較。
圖 4.5:分散型顏色比例尺。分散型顏色比例尺由兩段連續型顏色比例尺連線而成,常見的分散型比例尺包括從棕色到藍綠色,從粉色到黃綠色,從藍色到紅色。
圖 4.6 展示了分散型顏色比例尺的應用,圖上展示了德州各縣白人佔比的分佈。雖然百分比肯定是一個整數,但是我們可以基於 50% 作為一箇中心點。高於 50% 則說明白人佔多數,低於 50% 則相反。視覺化清楚地顯示了哪些縣白人佔多數或少數,或者白人和其他有色人種大致相同。
圖 4.6:德州各縣白人分佈圖。
4.3 顏色用來突出資料
顏色也可以高亮資料集中的特定元素。資料集中可能存在某些特殊的類別或值,其中包含了我們所要講述故事的關鍵資訊。我們可以向讀者突出相關的圖形元素來增強故事。一個簡單的做法是,將相關圖形元素用一種或一組顏色著色,讓其從其他資料集中脫穎而出(stand out against the rest)。我們可以用強調色比例尺(accent color scale)來實現。強調色比例尺包含了一組柔色色系,和一組更強、更深、更加飽和的色系(圖 4.7)。
圖 4.7:強調色比例尺的示例。包含了 4 個基礎顏色和 3 個強調顏色。強調色有幾種生成來源:從已有的顏色色系中淡化某些顏色,並強化另外顏色( Okabe Ito Accent);基於灰色色系生成強調色(grays with accents);直接使用現有的強調色系(ColorBrewer)。
圖 4.8 展示了同樣的資料選擇不同顏色就能講述不同故事的示例。圖 4.2 展示了美國各州人口增長率的分佈,這裡我們選擇 Texas 和 Louisiana,這兩個州都在南部,並且彼此相鄰,但是 Texas 增長率排在前五,而 Louisiana 則是倒數第三低。
圖 4.8:Texas 和 Louisiana 相鄰城市,但是人口增長率卻截然不同。
使用強調色時,關鍵的一點是基礎顏色不應該喧賓奪主。看看圖 4.8 上基礎顏色是如此的低調,這樣才能突出強調色的作用。一個經常容易遇到的錯誤就在於基礎色太過豐富,分散了讀者的注意力。不過仍然有一個簡單的補救措施,只需要刪除圖中所有元素的顏色,但保留需要突出顯示的元素。圖 4.9 給出了一個示例。
圖 4.9:田徑運動員在所有流行運動專案中最為短小精瘦。