物理模擬模型可以模擬不同的物理現象生成大量的多變數資料集。不同變數在模擬過程中協同工作,因此它們之間通常有隱含的相關性。通常情況下,變數集在區域性區域往往會表現出較強的相關性,因此,提取變數在不同區域的區域性相關性比基於所有體素度量的全域性相關性更為必要。
區域性相關性分析框架
A co-analysis framework for exploring multivariate scientific data
Xiangyang He, Yubo Tao, Qirui Wang, Hai Lin
Link:https://www.sciencedirect.com/science/article/pii/S2468502X18300597
為了探索多變數之間的區域性相關性,本文提出了一種基於雙聚類的多變數資料協同探索框架,自動提取有意義的區域性特徵(由變數子集和體素子集構成且對應體素在對應的變數上具有相似的數值模式的集合,即Bicluster),並設計多個檢視探索多變數資料的區域性相關性。
Bicluster生成
利用雙聚類演算法將變數和體素聯合聚類,自動生成所有區域性特徵。
Bicluster分析
區域性特徵的數量通常比較大,本文對生成的區域性特徵進行聚類以降低冗餘。首先將具有相同變數集合的區域性特徵組織到同一類,並提供多種相關性度量方法,推薦使用者探索感興趣的變數集。當確定變數集後,透過基於空間重疊的相似性,對其區域性特徵進層次聚類,獲得多樣化的區域性特徵集合,方便使用者探索不同的區域性特徵。
可視探索
設計了關聯矩陣圖、區域性特徵投影檢視、平行座標及空間檢視等多個協同檢視,揭示多變數資料在變數、區域性特徵以及標量值之間的相關性,引導使用者探索多變數資料中大量的、未知的區域性關係。
系統介面
圖2 原型系統介面。使用者在關聯矩陣圖(A)中選擇感興趣的變數集後,其區域性特徵展示在投影檢視(B),使用者再次選擇感興趣的區域性特徵或集合,平行座標(C)和空間檢視(D)呈現對應區域性特徵的數值分佈和空間分佈。
案例分析
本例中,我們將水分子含量(v02)作為初始變數,根據區域性特徵數量排序,探索與之最為相關的變數集合。如圖3(b)所示,在關聯矩陣圖中找到與之區域性相關性最高的變數為溫度(tev)和聲速(snd),因此,我們將{snd,tev,v02}變數集作為可視探索的基礎,圖3(c)展示了該變數集合的區域性特徵投影圖。我們選擇3個距離較遠的集合A、B和C。圖3(e)展示了這三個特徵對應的空間檢視。高溫區(A)主要分佈在行星軌跡周圍,是由於行星撞擊海平面時空氣摩擦生熱導致軌跡周圍空氣溫度上升(圖3(e)黃色區域)。海平面上的高水蒸氣含量(B)主要分佈在撞擊海平面的四周及行星軌跡水蒸氣迴流軌跡(圖3(e)深藍色區域),撞擊發生後,水蒸氣沿行星軌跡不斷迴流,水滴與顆粒物不斷匯聚到一起,進而形成降雨。由於水的比熱容比較大,海平面以下(C)的溫度並未有大幅度波動,但聲速較高,與物理規律相符(圖3(e)淺藍色區域)。
圖4 燃燒資料集的可視探索。從左至右分別是關聯矩陣圖、區域性特徵投影檢視,以及區域性特徵A(外焰), B(火焰主體), C(內焰), D(非燃燒區)的空間分佈和數值分佈。
全文資訊
A co-analysis framework for exploring multivariate scientific data
BY Xiangyang He, Yubo Tao, Qirui Wang, Hai Lin
Abstract: In a complex multivariate data set, different features usually have diverse associations with different variables, and different variables are also associated within different regions. Thus, it is necessary to explore these associations between variables and voxels locally to better understand the underlying phenomena. In this paper, we propose a co-analysis framework based on biclusters, i.e., two subsets of variables and voxels with close scalar-value relationships, to guide the visual exploration process of multivariate data. We first extract all meaningful biclusters automatically, each of which only contains voxels with a similar scalar-value pattern over a subset of variables. These biclusters are organized according to their variable sets, and biclusters in each variable set are further grouped by a similarity metric to reduce redundancy and encourage diversity during visual exploration. Biclusters are visually represented in coordinated views to facilitate interactive exploration of multivariate data from the similarity between biclusters and the correlation of scalar values with different variables. Experiments with several representative multivariate scientific data sets demonstrate the effectiveness of our framework in exploring local relationships among variables, biclusters and scalar values in the data.
Key Words: Multivariate data, Bicluster, Local association
Link: https://www.sciencedirect.com/science/article/pii/S2468502X18300597