[譯] 在資料視覺化中,我們曾經“畫”下的那些敗筆

賈瀾鵬發表於2019-05-09

從敗筆中學習資料視覺化

經濟學人,我們會很認真的對待資料視覺化。我們每週都會通過印刷品、網站或者應用程式釋出大概 40 張圖表。對於每一個圖表,我們都儘可能的讓它更精確從而最好的支撐我們所要描述的主題。但有的的時候我們也會犯錯。如果我們從這些錯誤中吸取教訓,我們在未來可以做的更好,同時其他人也可以從中學到一些東西。

通過深挖我們的檔案,我發現了一些有學習價值的例子。我對它們進行了如下三類分組:(1)誤導性,(2)混淆性和(3)沒能說明問題的圖表。對於每一個錯誤分類,我都提供了一個佔用空間類似的改進版本,空間的佔用量在印刷版發行時是一個很重要的考量因素。

(簡短的免責宣告:大多數“原始”圖表是在重新設計圖表之前釋出的。繪製改進的圖表以符合我們的新規範。資料是一樣的。)


誤導性的圖表

讓我們從資料視覺化中最糟糕的罪行開始:以誤導的方式展示資料。我們從來不會故意的去這麼做!但是它確實經常性的在發生。讓我們來看以下三個來自我們案例的例項。

錯誤:截斷比例

A bit left-field

這張圖表為了展示左翼政黨帖子在 Facebook 上的平均點贊數。圖表的目是為了體現 Corbyn 先生的帖子和其他人的差距。

原始的圖表不僅低估了 CorByn 先生帖子的點贊人數,而還且誇大了其他人帖子的點贊人數。在重新設計的版本中,我們在完整的展示 CorByn 先生的直方圖的同時其他人的直方圖也依舊可見。(對這個部落格有興趣的粉絲可以看到這個錯誤的另一個例子。)

另一個比較奇怪的事情是顏色的選擇。為了模仿工黨的配色方案,我們使用了三種暗色的橘色/紅色色調來區別 Jeremy Corbyn 和其他的國會、政黨/團體。我們沒有解釋這個。這些顏色背後的含義對大多數讀者來講是顯而易見的,但是對於那些不熟悉英國政治的讀者來講就沒有什麼意義了。

下載圖表資料

錯誤:通過精選的尺度來強調一組關係

**A rare perfect correlation? Not really.**

上面的圖表描述的是與狗體重下降相關案例。乍一看,狗的體重和脖子的尺寸是強相關的。但這是事實嗎?應該只是在某種程度上相關。

在原始圖表中,兩個尺度都下降了 3 個單位(左邊的從 21 到 18,右邊的從 45 到 42)。按百分比計算,左邊的尺度下降了 14%,右邊的尺度降低了 7%。在重新設計的圖表中,我保留了兩個尺度,但是我調整了變化的範圍,使得結果可以更好反映一個有比較性的比例變化。

考慮到這個娛樂性質的主題,這個錯誤就沒有那麼嚴重。畢竟,兩個版本圖表所使用的資訊是一致的。但是,值得一提的是:如果兩組資料緊密相關,那麼仔細的考慮一下尺度的選擇是個不錯的主意。

下載圖表資料

錯誤:選擇了錯誤的視覺化方法

**Views on Brexit almost as erratic as its negotiations**

我們在自己的每日新聞程式 Espresso 上釋出了這個投票結果表。它使用折線圖的方式來展示人們對歐盟公投結果的態度。通過這組資料,受訪者對於公投結果的看法是很不穩定的,隨著時間的推移一直在上下浮動。

我們沒有使用散點加一條平滑的曲線來展示趨勢,而是連線了每一個受訪者的結果。這很可能是我們內部的工具沒有提供繪製平滑曲線的功能所造成的。直到最近,我們仍然沒有習慣使用提供更多複雜視覺化工具的統計學軟體(比如 R)。其實,現今我們所有人都能夠繪製一個投票圖,就像上面重新設計的那樣。

怎麼去截斷尺度是這個圖表中另一個需要注意的問題。原始圖表中資料的顯示範圍被擴充套件的超出了資料應有的範圍。在重設計的圖表中,我在尺度的起始點和最小資料點之間預留了一部分空間。Francis Gagnon 的部落格中對此總結了一個公式:對於不從零點起始的折線圖表中,至少預留 33% 的區域。

下載圖表資料


混亂的圖表

難懂的圖表不像誤導性的圖表那麼有危害,但是也代表這個圖表是一個很糟糕的視覺化工作。

錯誤:思維太過發散

… what?

經濟學人,我們鼓勵去製造一些具有發散性思維的新聞。但是,有時我們做的太過了。上表展示了美國貨物貿易逆差和工廠僱傭員工數量的關係。

這個圖表是令人髮指的難以理解。它有兩個主要問題。首先,貿易逆差的全部資料都是負值,而工廠僱傭人數全部是正值。在沒有將兩組資料歸一化到同一尺度的情況下,將他們組合到一張表中表達是不合適的。這種直白的處理方式導致了第二個問題:兩組資料沒有共享同一個基線。貿易逆差的基線是圖表頂部左半段的紅線,而右邊尺度的基線又在圖表的底部。

其實將兩組資料組合在一張表中是沒有必要的,在我們重新設計的圖表中,貿易逆差和工廠僱傭人數之間的關係更為清晰,僅僅是多佔據了很小的一點額外空間。

下載圖表資料

錯誤:混亂的使用顏色

50 Shades of Blue

該圖表對比了選定國家 65 歲以上人口比例和政府養老金支援的關係,重點關注了巴西。為了使圖表更小,圖中只標註了選中的國家並且用鐵藍色高亮了這些國家,用淡藍色高亮了 OECD 的均值。

這個視覺化者(我!)忽視了這樣一個事實,顏色的變化意味著種類的變化。乍一看,這個圖表也是如此,所有的鐵藍色似乎是屬於深藍色的不同分組。但這不是我想要表達的事實,他們唯一的共同點只是他們被標記了。

在重新設計的版本中,所有國家的顏色沒有變化。我改變了沒有標記國家的透明度從而凸顯那些標記了的國家。然後我對字型進行了調整,用粗體字來強調我們關注的巴西,用斜體字來標註 OECD。

下載圖表資料


觀點模糊的圖表

最後的這一類錯誤不是特別明顯。像這樣的圖表沒有誤導性也不會令人困惑。它們只是沒有很好的證明自己存在的意義 —— 通常是因為不正確的表現或者想在很小的空間裡體現很多的資訊所導致的。

錯誤:包含太多的細節

**“The more colours the better!” — No good data visualiser, ever**

多麼的色彩斑斕!我們在德國預算盈餘的專欄中公佈了這個圖表。它顯示了 10 個歐元區國家的預算餘額和現金賬戶餘額。圖示中使用了很多種顏色,再加上本身數值很小導致大量的資料非常難以區分,想通過這樣的圖表來傳達資訊是不可能的。它幾乎就是讓你在大霧中摸索前進。而且,更重要的是,我們之所以沒有繪製全所有歐元區國家的資料,是因為這樣的堆疊資料沒有任何意義。

我們重溫這個案例是為了看看有沒有其他方式來簡化這個表格。圖表的列提到了德國、希臘、荷蘭、西班牙和剩下的幾個國家。在重新設計的版本中,我們決定只突出這些。為了解決僅堆疊一些國家的問題,我另外新增了一個包括所有其他歐元區國家類目(“其他”)。(重新設計的圖示中,現金賬戶餘額低於原始圖表是因為我們使用了歐盟統計局的修訂資料。)

下載圖表資料

錯誤:大量的資料,狹小的空間

**I give up.**

由於空間的限制,我們經常性的把資料強行塞到一個很小的細條上。雖然節省了空間,但是也會有像這個圖表(來自 2017 年 3 月)一樣的後果。這個案例展示了科學刊物是由男性主導的現象。所有的資料都同樣的意義並且和主題相關。但是這麼多的資料(包含了四個研究領域以及發明人)是很難在這裡展示出來的。

在深思熟慮之後,我決定還是不要重新設計這個圖表了。如果我儲存了所有的資料,那麼圖表會很臃腫從而沒法簡潔的表達主題。在這種情況下,最好的方式是砍掉一部分資料。比如,我們可以展示一個測量均值,或者使用所有領域的女性出版物的平均值來代替。(如果你可以在這個狹小的空間上做的更好!那麼請告訴我,我很樂意知道你的想法。)

下載圖表資料


資料視覺化的最佳實現方法正在快速發展:那些今天有效的方法,明天不一定有效。每時每刻都有新的技術湧現出來。你有沒有犯過一些很容易被修整的錯誤?快來告訴我們!

經濟學人資料視覺化記者 Sarah Leo.

如果發現譯文存在錯誤或其他需要改進的地方,歡迎到 掘金翻譯計劃 對譯文進行修改並 PR,也可獲得相應獎勵積分。文章開頭的 本文永久連結 即為本文在 GitHub 上的 MarkDown 連結。


掘金翻譯計劃 是一個翻譯優質網際網路技術文章的社群,文章來源為 掘金 上的英文分享文章。內容覆蓋 AndroidiOS前端後端區塊鏈產品設計人工智慧等領域,想要檢視更多優質譯文請持續關注 掘金翻譯計劃官方微博知乎專欄

相關文章