資料視覺化是少數幾個 VR“佈道者”非常喜歡說道的利用虛擬現實可能產生變革的領域之一。但是究竟應該如何做呢?現今的資料視覺化領域又有什麼問題呢?本文對傳統的資料視覺化的幾個具體問題進行挖掘,討論理解抽象資訊方面的難題,並探討VR如何改變這一切。
本文原作者Evan Warfel,虛擬現實資料視覺化公司 Kineviz 的專案經理,曾經任 HID 環球集團資料科學家,畢業於U.C. Berkeley 的認知科學專業。 工作之餘,他還研究人類制定決策的過程問題。
談論資料和虛擬現實的問題有點像雞和蛋的問題——如果不知道人們會如何使用 VR 資料工具,就很難設計良好的VR資料工具。話雖如此,但虛擬現實可以幫助我們提升概率思維、多維資料的視覺化、高密度資訊的展示、以及提供情境使人們更全面地理解問題。
高維度資料的視覺化
“影像是優秀資料分析的關鍵”——F.J.Anscombe
如果是二維或者一維資料集,相應的視覺化方法非常簡單,使用圖或表格即可。
上面是著名的 Anscombe 四幅圖,其中每個資料集有著同樣的均值、相關係數、方差和最優擬合線。
上面的每一個資料集中,X 的均值都是 9,Y 的均值都是 7.50,X 的方差都是 11,X 和 Y 的相關係數是0.816,最優擬合線的方程都是 Y=3+5x。換句話說,這四個資料集即使在實際看來,他們本身是完全不同的,但在統計意義上他們卻是相等的。然而這還是最簡單的,因為我們只處理了二維資料。
如果是三維資料,你會想當然地使用三維影像。但是如果是更高維度的資料呢?比如 Excel 表中很多行很多列的資料,你可能就無從下手了。實際上,超過三維的資料集都不可能在超三維空間中進行視覺化。
然而,還有其他表示維度的方法。比如說,可以用一個三角形三邊的長度來表示一個資料的三個維度。如果你願意,你還可以在三角形中間標註紅藍光譜或者明暗光譜中的顏色,這樣你就可以在一個視覺化圖中展示五個連續維度。比較每一個三角形,你就可能發現一些異常或者一些隱藏模式和關係。這就是理論的原理所在。
Herman chernoff 在70年代發展了這種理論的變異形式,他不使用三角形的邊長,他用卡通臉譜的不同特徵來代表資料的不同維度(切爾諾夫臉)。
圖中顯示了 1977 年洛杉磯的生活狀況。四個臉部特徵,加上地理分佈和社群分佈,這張圖顯示了一個 6維資料。
你的直覺應該會不喜歡這種資料表示的方法,因為它不好解釋,看起來有點愚蠢,也似乎有些種族歧視的意思。但是我建議你再好好觀察一下——你能看到貧窮和富裕之間的緩衝地帶嗎?
切爾諾夫臉應用不夠廣泛的一個原因在於,它看起來過於卡通化(科學可是非常嚴謹的,用這種卡通臉似乎不太適合)。雖然切爾諾夫臉有著這樣的缺點,但是它強調了這樣一個事實:即是他們看上去很直觀,但是我們因為對臉型和表情有太多經驗,所以對一個結構化的臉的評論會有任意性。
看下面的圖片,Tim Cook 的臉的不同特徵(比如眉毛的彎度),可以代表 Apple 不同年份年的各種財務資訊。
三個 Tim Cook 臉的不同版本代表了 Apple 各年的財務資訊。Tim Cook 的鼻子的寬度表示 Apple 的負債數量;Cook 嘴的開合程度代表了每年的利潤;他眼睛的大小代表了每股收益;等等。
虛擬現實可以解決上述的一些問題。除了這些臉型表示,還有一些“切爾諾夫類”的技術可以應用於對物體的形狀、移動、互動和分佈的控制。比如,下圖這個桌子的性質可以代表不同的資料維度:高度、桌面的面積、顏色、桌腿的長度、桌子的光潔度、桌子的型別、汙點的位置等等。如果你有一個 15 維的資料,你可以用不同因素的維度來控制你桌子的形態。
VR 的好處在於,它可以讓你通過直觀地比較兩個桌子的高度或者桌面的摩擦力系數的不同來理解其代表的因子維度的不同。一些實驗表明,維度間的差別程度的不同可以帶來感知權重的不同。
另外,關於這種方法的研究已經覆蓋到心理學和顏色感知的領域。研究者們花費了大量時間測量人們在不同的知覺中如何感知微小和巨大的區別。換句話說,藉助 VR 和一些心理學知識,可以使人們理解複雜資料像逛宜家一樣簡單。
高密度的影像
由於一個數學史上不幸的意外,某種由點和連線線組成的東西也可以叫做影像,比如下圖:
維基百科的力導向圖
圖中每個點代表了一個維基頁面,每條線代表著頁面間的聯絡。
資料點之間抽象的關係用影像表示是非常直觀的,尤其是在這些聯絡的型別和數量十分重要的情況下。比如,下圖展示了酵母菌和釀酒酵母之間每個基因的關係。
左邊是一個代表一個酵母菌基因組的節點邊緣圖;右邊是基因的重要聚類圖
有趣的是,上面這些圖的內部都非常複雜。如果你去查詢“巴拿馬檔案”的資料集,你會發現跟上面這些圖一樣,影像中的連線線非常複雜。
事實是,大多數影像會因為中心部分重疊在一起的複雜連線線而變得難以理解。但是我們最初是因為要看清事物間的關係才使用這些影像。
正如你可能想到的,三維影像視覺化能讓我們在理解上更加容易。比如下圖是一個三維的視覺化影像,展示了大腦中不同的連線網路。
然而,我們應該發現,這些資料的視覺化影像仍然有過於密集的問題。即使作圖者已經使用演算法把連線線整合在一起了,我們還是很難從影像中明白物件之間究竟有怎樣的聯絡。想象一下,如果你能夠走進圖中的大腦裡,那你可能更容易就能理解腦中到底發生了什麼。
內容提供式的資料視覺化
請對比一下圖表:
兩張圖使用了同樣的資料,但第一幅圖卻是 2015年 最誤導人的圖表之一。
上面的圖表作為一張靜態影像,其誤導性來自於它改變了資料的大小、形狀和比例。因為我們看到內容,會想到我們的日常體驗。
使用虛擬現實進行資料視覺化的一大好處是,我們可以不用僅僅展示靜態表示圖,每一張VR表示圖都可以自動變成一種體驗。這意味著讀者可以根據自己的意願來探索一張圖。
VR的拯救作用
當然,VR 資料工具目前仍在初級階段。下面是三個例子,可以生動地說明我上文中提到的內容。
CalcFlow
第一個要介紹的是 Calcflow,這是加州聖迭戈分校的數學系研發了用於對 3D 數學概念的視覺化工具。目前,它建立了一系列互動式展示,人們可以通過展示直觀地理解二重積分和粘性流體方程等問題。你可以體驗到 VR 的一些好處:可以改變觀察資料的尺寸,可以在資料中“穿梭”,是的資料更易理解。這種體驗式的展示特點意味著使用者可以做出自己的調整,並觀察這些調整在多維中是如何改變結果的。
DeathTools
DeathTools 的資料視覺化是將抽象的數字變成真實可觸知的世界,我們對這樣的視覺化資料的理解則完全不同於原有的數字和影像。比如,它將最近中東衝突中的累計死亡人數用屍體袋數量來表示,不同於檢視柱狀圖,你彷彿真的站在成排的屍袋中,真實地體驗戰爭的死亡人數。
正如 DeathTools 創始人 Ali Eslami 所說:“我們的知識儲備中缺少一種感知大數字的能力。我們無法理解和接受大量的死亡。比如1、2、14、20、50 這種數字我們經常會遇到,所以我們會理性地對他們形成一種思維模式。但是當我們遇到 1000、10000、20000 時,這些數字的概念化會越來越難。但是我們仍然可以使用日常中體驗大尺寸物品的視覺模型來理解大數字的意義。”
Kineviz
最近,我正在 Kineviz 上使用VR基礎上的 3D 影像工具。這個工具專門用來處理高資訊密度資料的。並且,這個工具可以使使用者直觀地感受到資料的顯著不同。
VR 的最大好處就是它可以使人們更輕易地感知資料間的差別,使得資料密度更低,更加直觀。另外,VR也使得資料展示變得更加具有體驗感,資料展示不再需要匹配一些預定的設定。最後,VR 可以讓人們快速改變資料的尺寸,提高使用者的空間感知力,實現過去很難想象的對資料規模的感知。
Via: roadtovr 雷鋒網