如果倫敦地鐵圖是資料科學家畫的……

大資料文摘發表於2018-09-08

資料科學

我們每天乘坐的地鐵是一個恢弘的藝術作品。

拋開路線、站點的規劃不說，地鐵的線路圖本身就蘊藏了極其精妙的設計。

比如說倫敦地鐵圖。

倫敦的地鐵路線圖圖可謂是地鐵路線圖的鼻祖。多年來，它形成的配色與排版方案，造就了它獨特的外觀和風格，但最令人驚歎的，還是其神來之筆的設計思路。

擁有13條路線，300多個站點，倫敦地鐵的結果複雜至極。一些站點甚至連線了3到4條路線。

怎樣才能有效地視覺化這個網路？

20世紀初的設計大師Harry Beck交出了一份堪稱完美的答卷。今天，一位資料科學家Keith McNulty也想來重新挑戰一下這個難題。

這場跨越時空的pk究竟誰更勝一籌呢？趕緊搬來小板凳！

選手A：20世紀天才設計師Harry Beck

20世紀初期，倫敦在過去的半個多世紀內完成了很多雄心勃勃的地下和地面鐵路專案，建成了一系列相互連線的複雜路線。

當年，倫敦地鐵地圖的設計者Harry Beck驚奇地發現，人們乘坐地鐵時，他們並不在意自己所在的地理位置——他們真正關心的是乘坐多少站以及在哪裡需要換乘。

意識到這點，Beck設計了今日地鐵圖的初稿，以一種儘可能簡單的方法將所有線路繪製成直線，清楚顯示線路互相連線的位置。

但Beck也知道，線路的地理方向是也不能在設計中被完全忽略，否則人們無法辨認東南西北——在看地圖時，人們需要基本的方向感。

所以，在許多方面，Beck的地圖富有設計感又兼顧準確性。

於是，他就創作出了下面這幅地鐵路線圖?

如果倫敦地鐵圖是資料科學家畫的……

請一秒鐘記住這張圖！

先不急著給出評價，接下來讓我們來看看當代選手的作品。

選手B：21世紀資料科學家Keith McNulty

Keith給出了兩種方案，分別遵從兩種極端的設計原則。

1.完全忽略地理位置：使用“力導向圖”決定站點的位置，與實際地理位置資訊不相關。

2.完全遵從地理位置：類似於原始早期的Beck地鐵圖，使用空間座標將網路疊在倫敦地鐵上。

首先，我們需要找一個能夠呈現倫敦地鐵網路的資料來源，包括站點和線路資訊。

好訊息是，這樣的資料集已經在網上公開啦。這份資料甚至包含了地圖線路的十六進位制顏色編碼。順便說一下，倫敦交通局（Transport for London）釋出過一個設計風格指南。

資料集：

https://github.com/nicola/tubemaps/tree/master/datasets

1、完全無地理資訊的地鐵圖方案

現在，我們需要一個能夠生成力導向圖，並能夠輕鬆進行視覺化的演算法。

R中 networkD3的forceNetwork()函式就是不二的選擇。

鑑於已有的資料和networkD3函式易於使用，這裡不需要寫太多複雜的程式碼。我們先載入庫和三個調整過的原始檔案。

# load libraries
library(networkD3)
library(dplyr)
# load data
stations <- read.csv("stations.csv")
connections <- read.csv("connections.csv")
lines <- read.csv("lines.csv")

stations 資料框（dataframe）只是一個列表，包含站點名稱、每個站的ID號碼以及站點的空間座標（因為我們現在不考慮地理位置，所以暫時不需要該資訊）。地鐵圖總共有302個站點。

lines資料框是包含整個網路13條線路的列表，附帶線路的ID號碼、線路名稱和官方顏色。

connections 資料框表示所有線路任意兩個站點之間的連線和連線線路的號碼。這裡共計有406個連線。

首先，讓我們將網路的邊變成官方地鐵圖的配色，並且根據節點所處的線路給節點（即站點）上色。當節點屬於多條線路時，我們可以選擇ID號碼最小的線路為該節點的顏色。這意味著我們需要在stations 和connections 資料框中增加幾列，用來獲取站點的顏色和連線的顏色。

# bring in line colour into connections dataframe for edge colours

connections <- merge(connections, lines)

connections <- connections[ ,c("station1", "station2", "line", "colour")]

# define a colour for each station using min of line ID

connections_unique_lines1 <- connections %>% dplyr::group_by(station1) %>%

  dplyr::summarise(line = min(line))

colnames(connections_unique_lines1) <- c("station", "line")

connections_unique_lines2 <- connections %>% dplyr::group_by(station2) %>%

  dplyr::summarise(line = min(line))

colnames(connections_unique_lines2) <- c("station", "line")

connections_unique_lines3 <- rbind(connections_unique_lines1, connections_unique_lines2)

connections_unique_lines <- connections_unique_lines3 %>% dplyr::group_by(station) %>%

  dplyr::summarise(line = min(line))

# merge line IDs into stations dataframe

stations <- dplyr::left_join(stations, connections_unique_lines, by = c("name" = "station"))

# merge with lines dataframe to capture line_name

stations <- dplyr::left_join(stations, lines, by = "line")

現在大部分工作已經完成。我們只需要對站點的索引從零開始進行編號，以符合的 D3.js格式要求：

# create indices for each name to fit forceNetwork data format

connections$source.index <- match(connections$station1, stations$name) - 1

connections$target.index <- match(connections$station2, stations$name) – 1

現在，我們有了繪製網路的所有東西。我們將使用networkD3包中的forceNetwork() 函式。

connections資料框包含了我們所需要的線路，而stations 資料框包含了節點的詳細資訊。我們使用stations資料框中的line_name 列對站點分組，以便對節點進行顏色編碼；我們使用 connections 資料框中的 colour 列對線路進行顏色編碼（根據線路的官方顏色）。

我們還需要定義與線路匹配的節點顏色，以及與倫敦地鐵圖相近的字型。我用的是Gill Sans，雖然它是非官方字型，但是非常接近（Eric Gill實際上為設計了原始地鐵圖字型的Edward Johnson工作）。

此處是生成網路的程式碼。

networkD3::forceNetwork(Links = connections, Nodes = stations, Source = "source.index", Target = "target.index", NodeID = "name", Group = "line_name", colourScale = JS('d3.scaleOrdinal().domain(["Bakerloo", "Central", "Circle", "District", "East London", "Hammersmith & City", "Jubilee", "Metropolitan", "Northern", "Piccadilly", "Victoria", "Waterloo & City", "Docklands"]).range(["#AE6017", "#FF0000", "#FFE02B", "#00A166", "#FBAE34", "#F491A8", "#949699", "#91005A", "#000000", "#094FA3", "#0A9CDA", "#88D0C4", "#00A77E"])'), linkColour = as.character(connections$colour), charge = -30, linkDistance = 25, opacity = 1, zoom = T, fontSize = 12, fontFamily = "Gill Sans Nova", legend = TRUE)

最後的結果就是這樣啦?

如果倫敦地鐵圖是資料科學家畫的……

動態演示可以在這兒檢視：

如果倫敦地鐵圖是資料科學家畫的……

http://rpubs.com/keithmcnulty/tubemap

在繪製這張圖時，我們完全不考慮地鐵圖的地理位置意義，將Beck的設計原則發揮到極致，並藉助資料科學方法以最美觀的方式將地鐵圖視覺化。

如果你熟悉倫敦的區域分佈，你會發現很多奇奇怪怪的事情。比如，現在位於倫敦南部的是艾坪鎮（Epping）而非埃塞克斯（Essex）了。這對使用者來說是非常糟糕的。

2、地理位置完全精確的地鐵圖方案

讓我們看看另一個極端：完全遵從地理位置。

我們將主要使用ggplot2，當然這裡還需要一些其他的庫。

# load libraries
library(dplyr)
library(ggplot2)
library(sp)
library(rgdal)
# load data
stations <- read.csv("stations.csv")
connections <- read.csv("connections.csv")
lines <- read.csv("lines.csv")

為了完全遵從地理位置，我們可以將這些站點直接繪製在一張倫敦地圖的相應位置。

在這裡我們可以獲得一份包含行政區邊界的倫敦地鐵圖檔案。

連結：

https://data.london.gov.uk/dataset/statistical-gis-boundary-files-london

首先，將其解壓縮到一個名為london-map-data的資料夾中。然後，將資料轉換成 ggplot2 可以使用的格式。

# import London borough GIS data
london <- rgdal::readOGR(file.path("london-map-data"))
sp::proj4string(london) <- sp::CRS("+init=epsg:27700")
london.map <- sp::spTransform(london, sp::CRS("+init=epsg:4326"))

有了正確格式的倫敦地圖資料，我們便可使用ggplot2繪圖。

# plot London boundaries

map1 <- ggplot(london.map) +

  geom_polygon(aes(x = long, y = lat, group = group), fill = "white", colour = "black")

map1 <- map1 + labs(x = "Longitude", y = "Latitude", title = "London Tube Routes")

在這張簡單的地圖上，我們會畫上地鐵線路和站點：

如果倫敦地鐵圖是資料科學家畫的……

因為stations 資料框有每個站點的空間座標資訊，畫站點就十分方便。要繪製線路，我們需要將每個站點的空間座標與 connections資料框相匹配。

# get spatial co-ordinates for each station pair in network
connections <- connections %>%
  dplyr::inner_join(stations, by = c('station1' = 'name')) %>%
  dplyr::rename(x = longitude, y = latitude) %>%
  dplyr::inner_join(stations, by = c('station2' = 'name')) %>%
  dplyr::rename(xend = longitude, yend = latitude)
connections <- merge(connections, lines)

由於ggplot2的調色盤缺少部分十六進位制的顏色，我們還需要人工選取與官方配色最接近的線路顏色。

#define line colours

linecolours <- c("brown", "yellow", "pink", "grey", "lightblue", "red", "darkgreen", "orange", "maroon", "black", "darkblue", "lightgreen", "#00A77E")

names(linecolours) <- lines$line_name

萬事俱備，我們只需要在倫敦地圖上繪製站點和線路即可——為求真實，這裡我們仍舊使用Erci Gill的字型。

# plot network on London map
map1 +
  geom_point(data = stations, aes(x = longitude, y = latitude)) +
  geom_curve(aes(x = x, y = y, xend = xend, yend = yend, 
                 color = line_name),
             data = connections, curvature = 0.33, size = 1) +
  scale_color_manual(values = linecolours, name = "Line") +
theme(text = element_text(family="Gill Sans Nova"))

更清楚的地鐵圖：

http://rpubs.com/keithmcnulty/geotubemap

如果倫敦地鐵圖是資料科學家畫的……

就是這樣！

這張路線圖雖然完全遵從了地理位置資訊，但位處市中心的幾個關鍵站點卻擠到了一起，難以分辨，反而是位於郊區的站點得到了更充分的展示。

讓我們最後再回過頭看看Harry Beck的作品。

如果倫敦地鐵圖是資料科學家畫的……

這張地鐵圖既保證了站點資訊的清晰可見，又極大程度地還原了站點的相對地理位置。

更厲害的是，合理的資訊分佈讓這一切都能被很好地呈現在一張小紙片上。

Harry的作品也被稱為“世上最易識別和最有影響力的交通地圖”。在此之後，幾乎所有城市的地鐵線路圖設計方案都遵從了Harry當年的原則。

在折騰了這一通之後，這位資料家Keith McNulty也表示，他輸得心服口服了。

“沒有什麼能替代人類聰明的設計——是的，什麼都不行！” Keith McNulty發出了這樣的感嘆。

倫敦工商會：促進倫敦全球化城市的地位
2023-04-09
什麼是全棧資料科學家？
2022-09-19
全棧資料科學
為了口吃的，一群倫敦老鐵給谷歌AI「下毒」
2024-10-28
谷歌AI
2018深度學習倫敦大會
2018-03-09
深度學習
倫敦遊學半載小記
2024-02-19
如果是個窮光蛋：如何從零開始學習成為一個資料科學家？
2018-10-10
資料科學
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
倫敦地鐵將於7月開始使用Wi-Fi接入點跟蹤所有乘客的手機
2019-05-24
資料科學50年，資料科學家是否依然是21世紀最性感的職業？
2020-05-29
資料科學
資料科學家的命令列技巧
2018-12-13
資料科學命令列
公民資料科學家的侷限性
2022-10-10
資料科學
資料科學家需要的基礎技能
2019-07-22
資料科學
高德地圖首席科學家任小楓：視覺智慧在高德地圖的應用
2019-10-24
地圖視覺
資料科學家必知的五大深度學習框架！（附插圖）
2019-04-25
資料科學深度學習框架
（資料科學學習手札133）利用geopandas繪製拓撲著色地圖
2021-12-27
資料科學地圖
秒針營銷科學院：2019版中國數字營銷地鐵圖
2019-10-22
這七家BAT公司，誰家資料科學家更多
2019-07-12
BAT資料科學
資料科學家已死？AutoML使得資料科學更加普及化 - enterpriseai
2021-02-27
資料科學TOMLAI
Spotify如何改進資料科學家的資料發現？
2022-10-24
資料科學
業界 | 資料科學家“恐怖故事”
2018-12-20
資料科學
如何成為資料科學家？ - kdnuggets
2020-10-29
資料科學
資料科學的歷史，從洞穴壁畫到大資料
2022-07-29
資料科學大資料
為什麼Jupyter是資料科學家們實戰工具的首選？
2018-11-01
資料科學
資料分析師、資料科學家、大資料專家三個職位的區別
2018-06-11
資料科學大資料
資料科學家最需要什麼技能？
2018-10-23
資料科學
（資料科學學習手札98）純Python繪製滿滿藝術感的山脊地圖
2020-11-15
資料科學Python地圖
如果能重來，我選擇這樣學習資料科學……
2020-10-07
資料科學
資料工程師、掌握資料分析，成為資料科學家、資料庫遷移專家
2022-03-20
工程師資料科學資料庫
利用Python做絕地科學家（外掛篇）
2019-02-28
Python
資料科學家最常用的十種演算法
2018-09-28
資料科學演算法
從軟體工程師轉型到資料科學家我是這樣走的
2018-04-27
軟體工程工程師資料科學
機器學習工程師與資料科學家的大斗法
2020-07-20
機器學習工程師資料科學
python獲取全國地鐵資料
2021-11-11
Python
初創公司資料科學專案全流程指南，一位資深資料科學家的經驗談
2019-01-22
資料科學
圖資料庫——大資料時代的高鐵
2021-09-09
資料庫大資料
全球40億人沒有地址，於是資料科學家想到了機器學習
2018-12-07
資料科學機器學習
圖靈獎獲得者：資料科學家或將取代業務分析師?
2022-02-12
圖靈資料科學
美國西北大學：研究發現美國孩子在繪畫中更多地描繪女性科學家
2018-03-21

如果倫敦地鐵圖是資料科學家畫的……

相關文章