轉自:INTETIX

(圖為成都美女地圖:


http://top.cdqss.com/acts/map-girl/map-girl.html )

大資料與視覺化

Intetix Foundation(英明泰思基金會)由從事資料科學、非營利組織和公共政策研究的中國學者發起成立,致力於通過資料科學改善人類社會和自然環境。通過聯絡、動員中美最頂尖的資料科學家和社會科學家,以及分佈在全球的志願者,我們創造性地踐行著我們的使命:為美好生活洞見資料價值。

原文:Big Data and Visualization: Methods, Challenges and Technology Progress

原作者:

Lidong Wang 工程技術部門,美國密西西比州谷州立大

Guanghui Wan 國家嚴峻天氣重點實驗室,中國氣象科學院

Cheryl Ann Alexander美國技術和醫療保健公司

一、引言

資料視覺化是將資料以不同形式展現在不同系統中,其中包括屬性和變數的單位資訊[1]。基於視覺化發現資料的方法允許使用者使用不同的資料來源,來建立自定義分析。先進的分析整合了許多方法,為了支援互動式動畫在臺式電腦、膝上型電腦或平板電腦、智慧手機等移動裝置上建立圖形桌面[2]。根據調查,表1[3]顯示了資料視覺化的好處。


表1.資料視覺化工具的好處

對於視覺化有以下幾點建議[4]

大資料是大容量、高速度並且資料之間差異很大的資料集,因此需要新的處理方法來優化決策的流程。大資料的挑戰在於資料採集、儲存、分析、共享、搜尋和視覺化[5]

1、“所有資料都必須視覺化”:不要過分依賴視覺化,一些資料不需要視覺化方法來表達它的訊息。

2、“只有好的資料才應該做視覺化”:簡便的視覺化可以便於找到錯誤就像資料有助於發現有趣的趨勢一樣。

3、“視覺化總是能做出正確的決定”:視覺化並不能代替批判性思維。

4、“視覺化將意味著準確性”:資料視覺化並不著重於顯示一個準確的影像,而是它可以表達出不同的效果。

視覺化方法可通過建立表格、圖示、影像等直觀地表示資料。大資料視覺化並不是傳統的小資料集。一些傳統的大資料視覺化工具的延伸雖然已經被開發出來,但這些遠遠不夠。在大規模資料視覺化中, 許多研究人員用特徵提取和幾何建模在實際資料呈現之前大大減少資料大小。當我們在進行視覺化大資料時,選擇合適的資料也是非常重要的[5]。

本文的目的是通過介紹傳統視覺化方法及其在處理大資料時的擴充套件方法,來展現大資料視覺化的前沿技術。同時討論大資料視覺化的挑戰,並其取得的進步。

在研究過程中,筆者首先尋找了近幾年通過大學圖書館系統發表的資料視覺化相關論文。此階段筆者主要總結了傳統的資料視覺化方法和該領域的新進展。隨後筆者搜尋了相關大資料視覺化的論文,因為大資料是一個較新的領域,所以大多數的論文是在過去三年裡發表的。同時筆者發現大多數傳統的資料視覺化方法並不適用於大資料,用一些從傳統的視覺化中發展而來的方法來處理大資料也是遠遠不夠的。筆者著重關注大資料視覺化的新方法、技術的進步和大資料視覺化的工具開發以及隨之而來的挑戰。

二、常規資料視覺化方法

許多傳統的資料視覺化方法經常被使用,比如表格、直方圖、散點圖、折線圖、柱狀圖、餅圖、面積圖、流程圖、泡沫圖表等以及圖表的多個資料系列或組合像時間線、維恩圖、資料流圖、實體關係圖等。此外,一些資料視覺化方法經常被使用,卻不像前面那些使用的廣泛,它們是平行座標式、樹狀圖、錐形樹圖和語義網路等。

平行座標被用於繪製多維度個體資料。平行座標在顯示多維資料時是非常有用的。圖1就是平行座標;樹狀圖則是一種有效的視覺化層次結構方法。每個子矩形的面積代表一個測量,而它的顏色常被用來代表另一個測量的資料。圖2顯示了一個選擇流媒體音樂和視訊的樹狀圖,是在一個社交網路社群獲得的資料;錐形樹圖是另一種顯示分層資料的方法,如三維空間中的組織體,它的樹枝是錐生長的形式;語義網路是一個表示不同概念之間的邏輯關係的圖形。它生成有向圖,組合節點或頂點,邊或弧,並在每個邊上做標記[1]。

圖1:平行座標


圖2:用樹圖跟蹤檢視社交網路流媒體服務的選擇


視覺化並非僅僅是靜態形式,而應當是互動的。互動式視覺化可以通過縮放等方法進行細節概述。它有如下的步驟[1]:

1、選擇:互動式根據使用者的興趣選擇資料實體或完整的資料集,以及它的子集。

2、連結:在多個檢視找到有用的資訊,如圖3所示。

3、過濾:幫助使用者調節顯示的資訊量,減少資訊數量並且專注於使用者感興趣的資訊。

重排或再對映:空間佈局是最重要的視覺對映,重排資訊的空間佈局對產生不同的見解非常有效。

圖3:直方圖(上)和地理圖(底部)的資料集之間的互動和連線


新的資料庫技術和前沿的網路視覺化方法可能是減少成本的重要因素,也有助於完善科研的程式。隨著網路時代的到來,資料時時都在更新,大大減小了視覺化的時效性。這些“低端”視覺化通常用於商業分析和政府資料的開放,但它們對科研沒有太大的幫助。許多科學家使用的視覺化工具都不允許連線這些網路工具[8]。

三、大資料視覺化面臨的挑戰

擴充性和動態分析是視覺化的兩個最主要的挑戰。根據資料量的大小,表2顯示了靜態資料和動態資料的研究現狀。對大型動態資料,原本A問題的答案和B問題的答案也許在同時應對AB兩個問題時就不適用了。

表2:視覺化分析的研究現狀和挑戰


基於視覺化的方法迎接了四個“V”的挑戰,並將它們轉化成以下的機遇[2]。

• 體量(Volume):使用資料量很大的資料集開發,並從大資料中獲得意義。

• 多源(Variety):開發過程中需要儘可能多的資料來源。

• 高速(Velocity):企業不用再分批處理資料,而是可以實時處理全部資料。

• 質量(Value):不僅為使用者建立有吸引力的資訊圖和熱點圖,還能通過大資料獲取意見,創造商業價值。

大資料視覺化的多樣性和異構性(結構化、半結構化和非結構化)是一個大問題。高速是大資料分析的要素。在大資料中,設計一個新的視覺化工具並具有高效的索引並非易事。雲端計算和先進的圖形使用者介面更有助於發展大資料的擴充套件性[3]。

視覺化系統必須與非結構化的資料形式(如圖表、表格、文字、樹狀圖還有其他的後設資料等)相抗衡,而大資料通常是以非結構化形式出現的。由於寬頻限制和能源需求,視覺化應該更貼近資料,並有效地提取有意義的資訊。視覺化軟體應以原位的方式執行。由於大資料的容量問題,大規模並行化成為視覺化過程的一個挑戰。而並行視覺化演算法的難點則是如何將一個問題分解為多個可同時執行的獨立的任務[10]。

高效的資料視覺化是大資料時代發展程式中關鍵的一部分。大資料的複雜性和高維度催生了幾種不同的降維方法。然而,他們可能並不總是那麼適用。高維視覺化越有效,識別出潛在的模式、相關性或離群值的概率越高[11]。

大資料視覺化還有以下幾點問題[12]:

• 視覺噪聲:在資料集中,大多數物件之間具有很強的相關性。使用者無法把他們分離作為獨立的物件來顯示。

• 資訊丟失:減少可視資料集的方法是可行的,但是這會導致資訊的丟失。

• 大型影像感知:資料視覺化不僅受限於裝置的長寬比和解析度,也受限於現實世界的感受。

• 高速影像變換:使用者雖然能觀察資料,卻不能對資料強度變化做出反應。

• 高效能要求:在靜態視覺化幾乎沒有這個要求,因為視覺化速度較低,效能的要求也不高。

可感知的互動的擴充套件性也是大資料視覺化面臨的挑戰。視覺化每個資料點都可能導致過度繪製而降低使用者的辨識能力,通過抽樣或過濾資料可以刪去離群值。查詢大規模資料庫的資料可能導致高延遲,降低互動速率[13]。

在大資料的應用程式中,大規模資料和高維度資料會使進行資料視覺化變得困難。當前大多數大資料視覺化工具在擴充套件性、功能和響應時間上表現非常糟糕。視覺化分析過程中,不確定性是有效的考慮不確定性的視覺化過程巨大挑戰[5]。

視覺化和大資料面臨許多的挑戰,下面是一些可能的解決方法[14]:

1. 滿足高速需要:一是改善硬體,可以嘗試增加記憶體和提高並行處理的能力。二是許多機器會用到的,將資料儲存好並使用網格計算方法。

2. 瞭解資料:請合適的專業領域人士解讀資料。

3. 訪問資料質量:通過資料治理或資訊管理確保乾淨的資料十分必要。

4. 顯示有意義的結果:將資料聚集起來到一個更高層的檢視,在這裡小型資料組和資料可以被有效地視覺化。

5. 處理離群值:將資料中的離群值剔除或為離群值建立一個單獨的圖表。

四、大資料視覺化的一些進展

在大資料時代,視覺化操作究竟是如何進行的呢?首先視覺化會為使用者提供一個總的概覽,再通過縮放和篩選,為人們提供其所需的更深入的細節資訊[15]。視覺化的過程在幫助人們利用大資料獲取較為完整的客戶資訊時起到了關鍵性作用。而錯綜的關係是眾多大資料場景中的重要一環,社交網路或許就是最顯著的例子,想要通過文字或表格的形式理解其中的大資料資訊是非常困難的;相反,視覺化卻能夠將這些網路的趨勢和固有模式展現地更為清晰[7]。在形象體現社交網路使用者之間的關係時,通常使用的是基於雲端計算的視覺化方法。通過相關性模型來描繪社交網路中使用者節點的層次關係,這種方法能夠直觀地展示使用者的社會關係。此外,它還能借助利用雲技術的Hadoop軟體平臺將視覺化過程並行化,從而加快社交網路的大資料收集[16]。

大資料視覺化可以通過多種方法來實現,比如多角度展示資料、聚焦大量資料中的動態變化,以及篩選資訊(包括動態問詢篩選,星圖展示,和緊密耦合)等等[12]。以下一些視覺化方法是按照不同的資料型別(大規模體資料、變化資料和動態資料)來進行分析和分類的[12]:

樹狀圖式 : 基於分層資料的空間填充視覺化方法。

圓形填充式:樹狀圖式的直接替代。它使用圓形作為原始形狀,並能從更高階的分層結構中引入更多的圓形。

旭日型:在樹狀圖視覺化基礎上轉換到極座標系統。其中的可變參量由寬和高變成半徑和弧長。

平行座標式:通過視覺化分析,將不同帝鄉的多重資料因素擴充開來。

蒸汽圖式:堆疊區域圖的一種,資料圍繞一條中軸線展開,並伴隨流動及有機形態。

迴圈網路圖式:資料圍繞一個圓形排列,並按照它們自身的相關性比率由曲線相互連線。通常用不同的線寬或色彩飽和度測量資料物件的相關性。

表格3和表格4 [12]

表格3:視覺化工具概覽


表格4:視覺化工具的區分


傳統的資料視覺化工具不足以被用來處理大資料。以下列舉了幾種將互動式大資料視覺化的方法。首先,利用一個由可擴充套件的直觀資料摘要群組成的設計空間可以將多種型別的變化資料視覺化,這些直觀的資料摘要通過資料簡化(如聚合或抽樣)的方法得出。被應用於特定區間的互動查詢方法(比如關聯和更新技術)因此通過結合多後設資料塊和並行查詢而被開發出來。而更先進的方法被運用在一個基於瀏覽器的視覺分析系統——imMens上,來處理資料以及對GPU(影像處理器)進行渲染[13]。

很多大資料視覺化工具都是在Hadoop的平臺上執行的。該平臺裡的常用模組有:Hadoop Common, HDFS(Hadoop Distributed File System),Hadoop YARN和Hadoop MapReduce。這些模組能夠高效地分析大資料資訊,但是卻缺乏足夠的視覺化過程。下面將介紹一些具備視覺化功能並實現互動式資料視覺化的軟體[3]:

Pentaho:一款支援商業智慧(BI)功能的軟體,如分析、控制皮膚、企業級報表以及資料探勘;

Flare:實現在Adobe視訊播放器中執行的資料視覺化;

JasperReports:擁有能夠從大資料庫中生成報告的全新軟體層;

Dygraphs:快速彈性的開放源Java描述語言圖表集合,能發現並處理不透明資料。

Datameer Analytics Solution and Cloudera:同時使用Datameer和Cloudera兩個軟體能使我們在Hadoop平臺時更快捷、更容易。

Platfora:將Hadoop中的原始大資料轉換成互動式資料處理引擎。Platfora還有把記憶體資料引擎模組化的功能。

ManyEyes:IBM公司開發的視覺化工具。它可供使用者上傳資料並實現互動式視覺化的公共網站。

Tableau:一款商業智慧(BI)軟體,支援互動式和直觀資料分析,內建記憶體資料引擎來加速視覺化處理。

Tableau系列軟體在處理大規模資料集時主要是依靠以下三種產品:Tableau Desktop,Tableau Sever和Tableau Pubilc。此外,Tableau還能內嵌入Hadoop的基礎裝置之中,利用Hive(基於Hadoop的一個資料倉儲工具)將查詢結構化併為記憶體分析快取資訊。通過快取資訊,Hadoop叢集延遲的可能性會大大減小。因此,Tableau軟體為使用者與大資料應用提供了一個互動互動機制[5]。

大資料分析工具可以輕而易舉地處理ZB(十萬億億位元組)和PB(千萬億位元組)資料,但它們往往不能將這些資料視覺化。如今,主要大資料處理工具有Hadoop,High Performance Computing and Communications,Storm,Apache Drill,RapidMiner和 Pentaho BI。資料視覺化工具有NodeBox,R,Weka,Gephi,Google Chart API,Flot,D3等等。一種在RHadoop基礎上形成的大資料視覺化演算法分析整合模型已經被提出,用來處理ZB和PB資料並以視覺化的方式為我們提供較高價值的分析結果。它還與ZB和PB資料並行演算法的設計相切合[17]。

互動式視覺化叢集分析是我們用來探尋叢集模式最直接的方法。其中最具有挑戰性的一點是視覺化多維資料,以便使用者互動式分析資料和認識叢集結構。如今我們已經開發出優化的星型座標視覺化模型,來有效分析大資料互動叢集,它與其他多維視覺化方法(如平行座標和散點圖矩陣)相比,極可能是最具備擴充套件性的大資料視覺化技術[18]:

平行座標和散點圖矩陣通常被用來分析十個維度以內的資料,而星型座標則可以處理數十個維度。

在基於密度代表的幫助下,星型座標式視覺化自身得以擴充套件。

基於星型座標的叢集視覺化並非是用於計算資料記錄中的兩兩距離;而是利用潛在對映模型的效能部分地保持這個位置關係。這一點在處理大資料上十分有用。

將大資料來源直接視覺化既不可能也不有效,因此通過分析資料減少大資料的量和降低其複雜程度就顯得十分重要。所以將視覺化和分析相互整合才能使效能最大化。IBM公司開發的RAVE軟體已經能夠將視覺化運用到商業分析領域去分析並解決問題。RAVE和可擴充的視覺化效能讓我們能夠利用有效的視覺化更好地理解大資料[7]。同時,其他的一些IBM產品,例如IBM® InfoSphere® BigInsights™和IBM SPSS® Analytic Catalyst,也同RAVE一起,利用互動視覺化豐富使用者對大資料的洞察。例如InfoSphere BigInsights能夠幫助分析並發現隱藏在大資料中的商業資訊,SPSS Analytic Catalyst使得大資料的準備工作自動化,加之選取合適的分析過程,最後通過互動式視覺化呈現最終結果[7]。

在沉浸式VR(虛擬現實)平臺上進行科學資料視覺化當下還在研究階段,其中包括軟體和便宜的商品硬體也在研究階段。這些具備潛在價值和創新力的多維資料視覺化工具無疑為合作式資料視覺化提供了便利。沉浸式視覺化與傳統的“桌面式”視覺化相比具備明顯的優勢,因為它可以更好地展現資料景觀結構並進行更直觀的資料分析。它還應是我們探索更高維度、更抽象大資料的基點之一。人類固有的認知模式(或者說是視覺認知)技能能夠通過使用與沉浸式VR相關的新型資料實現最大化[11]。

表格5是對以上大資料視覺化軟體的SWOT分析總結,其中的競爭優勢(Strengths)和機遇(Opportunities)是積極因素;競爭劣勢(Weaknesses)和威脅(Threats)是消極因素。

表格5:對現今大資料視覺化軟體的SWOT分析


五、結論

視覺化既可以是靜態的,也可以是動態的。互動式視覺化通常引領著新的發現,並且比靜態資料工具能夠更好的進行工作。所以互動式視覺化為大資料帶來了無限前景。在視覺化工具和網路(或者說是Web瀏覽器工具)之間互動的關聯和更新技術助推了整個科學程式。基於Web的視覺化使我們可以及時獲取動態資料並實現實時視覺化。

一些傳統的大資料視覺化工具的延伸並不具備實際應用性。針對不同的大資料應用,我們應該開發出更多新的方法。本文介紹了一些最新的大資料視覺化方法並對這些軟體進行了SWOT分析,以幫助我們能夠再此基礎上創新。大資料分析和視覺化,二者的整合也讓大資料應用更好地為人們所用。此外能夠有效幫助大資料視覺化過程的沉浸式VR,也是我們處理高維度和抽象資訊時強有力的新方法。

參考文獻:

[1] M. Khan, S.S. Khan, Data and Information Visualization Methods and Interactive Mechanisms: A Survey, International Journal of Computer Applications, 34(1), 2011, pp. 1-14.

[2] Intel IT Center, Big Data Visualization: Turning Big Data Into Big Insights, White Paper, March 2013, pp.1-14.

[3] V. Sucharitha, S.R. Subash and P. Prakash , Visualization of Big Data: Its Tools and Challenges, International Journal of Applied Engineering Research, 9(18), 2014, pp. 5277-5290.

[4] P. Simon, The Visual Organization: Data Visualization, Big Data, and the Quest for Better Decisions, Harvard Business Review, June 13, 2014, pp. 1-8.

[5] C.L. P. Chen, C.-Y. Zhang, Data-intensive applications, challenges, techniques and technologies: A survey on Big Data, Information Sciences, 275 (10), August 2014, pp. 314-347.

[6] B. Porter, Visualizing Big Data in Drupal: Using Data Visualizations to Drive Knowledge Discovery, Report, University of Washington, October 2012, pp. 1-38.

[7] T. A. Keahey, Using visualization to understand big data, Technical Report, IBM Corporation, 2013, pp. 1-16.

[8] P. Fox and J. Hendler, Changing the Equation on Scientific Data Visualization, Science, 331(11), February 2011, pp. 705-708.

[9] I. B. Otjacques, UniGR Workshop: Big Data- The challenge of visualizing big data, Report, Gabriel Lippmann, 2013, pp. 1-24.

[10] H. Childs, B. Geveci, J. Meredith, K. Moreland, C. Sewell, E.W. Bethel, T. Kuhlen, W. Schroeder, Research Challenges for Visualization Software, Joint Research Report of Lawrence Berkeley National Laboratory, Oak Ridge National Laboratory, Sandia National Laboratories, Los Alamos National Laboratory, RWTH Aachen University (Germany), May 2013, pp. 1-11.

[11] C. Donalek, S.G. Djorgovski, A. Cioc, A. Wang, J. Zhang, E. Lawler, S. Yeh, A. Mahabal, M. Graham, A. Drake, S. Davidoff, J.S. Norris, G. Longo, Immersive and Collaborative Data Visualization Using Virtual Reality Platforms, 2014 IEEE International Conference on Big Data, pp. 1-6.

[12] E.Y. Gorodov and V.V. Gubarev, Analytical Review of Data Visualization Methods in Application to Big Data, Journal of Electrical and Computer Engineering, 013, Article ID 969458, pp. 1-7.

[13] Z. Liu, B. Jiangz and J. Heer, imMens: Real-time Visual Querying of Big Data, Eurographics Conference on Visualization (EuroVis) 2013, 32(3), 2013, pp. 421-430.

[14] SAS Institute Inc., Five big data challenges and how to overcome them with visual analytics, Report, 2013, pp. 1-2.

[15] F. Shull, Getting an Intuition for Big Data, IEEE Software, July/August 2013, pp. 1-5.

[16] Y. Kim, Y.-K. Ji and S. Park, Social Network Visualization Method using Inherence Relationship of User Based on Cloud, International Journal of Multimedia and Ubiquitous Engineering, 9(4), 2014, pp. 13-20.

[17] L. Cai, X. Guan, P. Chi, L. Chen, and J. Luo, Big Data Visualization Collaborative Filtering Algorithm Based on RHadoop, International Journal of Distributed Sensor Networks, Article ID 271253, pp. 1-10.

[18] K. Chen, Optimizing star-coordinate visualization models for effective interactive cluster exploration on big data, Intelligent Data Analysis, 18, 2014, pp. 117-136.