本文作者:ECharts,歡迎關注ECharts在掘金的專欄,我們會定期推送ECharts及資料視覺化相關的諮詢及文章。
當下隨著大資料熱潮的到來,資料視覺化作為一個新興的領域,受到了學術界和工業界的重視。從可視分析、資料新聞到商業報表,各個領域都在越來越多的使用它。既然是資料視覺化,說明資料是主體,視覺化只是將資料以可視的形式表達的手段。接下來小編就與大家一起揭開視覺化中資料的面紗,一探究竟。
視覺化什麼:資料抽象
既然是資料視覺化,無可非議,視覺化的元素肯定是資料,這裡所指的資料是廣義上的資料,包括文字、圖片、聲音等超媒體資料。ECharts在視覺化過程中所涉及的四種基本資料集型別分別是表格資料、網狀資料、場資料和幾何空間(spatial)資料,像集合、列表等也是常用的資料集型別。這些基本資料集型別又是由不同的資料類組合構成的,這裡的資料類是指視覺化中所涉及的資料種類,主要包括四種資料類,分別是資料項、資料項的屬性、連結(links)、位置。資料項的屬性又可分為類別型和有序型兩種,其中有序型又進一步細分為序數型和數值型,下面將分別介紹資料類,資料集型別,以及屬性型別。
資料類
本文主要討論ECharts中所涉及的四種基本資料類,分別是資料項、資料項的屬性、連結、位置。資料項是指一個獨立的實體,如關係資料表中的一行,或網路中的一個節點;屬性是資料項的某個可被觀測的特性,如年齡,性別等;連結是指資料項之間的關係,該資料型別在網狀關係型資料集中用的比較多;位置是地理空間資料型別,指代二維或三維空間中的某個具體位置;下圖展示了四種不同的資料集型別所包含的資料類。
資料集型別
資料集是指為了分析而收集的任何資訊,資料集包括資料表,網狀資料,場資料(本文主要關注資訊視覺化,而場資料主要應用於科學視覺化,因而在此不作介紹)以及幾何空間資料這四種基本型別,而現實世界中的資料集一般是由這四個基本型別中的一個或多個組合而成的。下圖展示了四種不同資料集型別具體的內部結構。
資料表
資料表是常用的資料集形式,由行和列組成。對於簡單的扁平表格來說,每一行代表一個資料項,每一列代表一個屬性,表格中的每一個單元格是由行號和列號索引的,儲存著某個資料項的某個屬性值;多維資料表在資料倉儲中用的比較多,具有複雜的結構以及複雜的索引機制,一般來說,簡單扁平表格至多具有一個鍵屬性(key attribute),而多維表格具有多個鍵屬性。
網狀資料
網狀資料主要用來表明資料項之間具有某種關係,在網狀資料中資料項通常被稱為節點,兩個節點之間的關係被稱為連結,也就是網路中的邊,並且節點和連結都可以擁有與之相關聯的屬性。樹是一種具有層次結構的特殊型別網路資料,與一般網路資料相比,樹沒有迴路,每一個子節點都對應唯一的一個父節點。
幾何空間(spatial)資料
幾何空間結構資料通過明確的幾何空間位置指定資料項的形狀資訊,這些資料項可以是空間中的點、一維的直線或曲線、二維的平面或區域,以及三維的立方體。空間資料在不同的度量尺度上具有層級結構。這種層級結構要麼是原始資料集固有的,要麼是從原始資料集派生出來的。 視覺化中的資料主要以兩種形式存在,一種是靜態的資料檔案,一種是動態的資料流。靜態的資料檔案是指可以同時獲得完整的資料檔案,而動態的資料流是指資料在不斷的更新和變化。
屬性型別
屬性型別主要分為類別型和有序型兩種,有序型又可進一步分為序數型和數值型。有序型資料的排列方向有三種,分別是單向型,有公共零點的雙向型,以及環狀週期型,如下圖所示,除此之外,屬性也可能有層級結構。 類別型屬性是指名稱上的不同,屬性的值之間沒有明確的排序,例如喜歡的球類運動包括足球、籃球、排球等。雖然類別型屬性內部沒有明確的排序,但任意外部的排序機制可以被應用在類別型屬性上,如將球類運動的名字按字母順序排列。 有序型屬性包括序數型屬性和數值型屬性,所有有序型屬性都有隱含的排列順序。對於序數型屬性,如小中大,雖然我們不能對它進行完全的算術運算,但在屬性的內部有明確定義的順序,如大減去中並不是有意義的概念,但我們知道中介於大和小之間。數值屬性與序數屬性不同,它具有大小和量級的明確度量,並且支援算術比較,一般以整數和實數形式存在,如76米減去34米是個有意義的數值,並且它們之間的差是可以被度量的,像溫度、高度、長度等都是數值屬性。 有序型資料可以是單向的有序序列,比如人的年齡,只能往一個方向遞增,也可以是有公共零點的對向序列,如溫度。有序型資料也可以是環狀週期的,如時間相關的屬性。 在單個屬性內部或者多個屬性之間可能具有層級結構,如北京一年的交通事故數量,這是一個時間序列資料,具有時間屬性,可以分層級聚合,可以分別按周、月、年聚合,在不同的時間聚合尺度下可能會發現資料集中有趣的模式。除了時間屬性之外,地理空間資料也具有層級結構,如可以細分到省、市、縣等。
總結
本文簡要討論了視覺化中的資料,從資料的種類、資料集的型別以及屬性的型別這三個角度闡述了視覺化中需要可視表達的資料資訊。
參考文獻
[1] Tamara Munzner.Visualization Analysis and Design. CRC Press, 2014.
同時也歡迎關注我們的官方微博,以及微信公眾號(查詢BaiduECharts或掃描下方二維碼),以便獲取最新的ECharts諮詢