DW2.0下一代資料倉儲架構_第4章 DW2.0中的後設資料(讀書筆記)

thamsyangsw發表於2014-11-03

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。
    DW2.0架構中必不可少的組成部分之一是後設資料。在第一代資料倉儲中不提供或者後來才想到使用後設資料,而在DW2.0中,後設資料是資料
倉庫的基石。很多原因使得後設資料變得如此重要。首先,後設資料對於開發者來說很重要,他們必須將自己的努力與之前所作的工作聯絡起來
第二,後設資料對技術維護員來說很重要,因為他們必須處理日常問題以確保資料倉儲有序工作。三,後設資料對於終端使用者來說可能是最重要
引文終端使用者需要找到都有哪些可能用於新的分析。後設資料允許分析人員檢視其組織結構,並掌握已經完成了什麼分析。

資料和分析的可複用性
    終端使用者置身事外,但對資訊存在需求,他們在想辦法得到這些分析資料而後設資料就成為其求助的物件。後設資料使分析人員能夠確定
那些資訊是可用的。一旦分析人員確定了資料最可能的來源,便開始訪問資料。沒有後設資料,分析人員很難識別資料的可能來源,後設資料為
他們省去了很多不必要的工作。同時,終端使用者可以利用後設資料來判斷是否已經完成了某一分析。

DW2.0中的後設資料
    後設資料在DW2.0中起著特殊的作用。DW2.0中的每一個區都有各自的後設資料,其中包括互動區後設資料、整合區後設資料、近線區後設資料和
歸檔區後設資料。其中歸檔後設資料不同於其他後設資料。歸檔區後設資料置於歸檔資料中,以確保後設資料不會跟其所描述的基礎資料分離或丟失。
    DW2.0中有通用的後設資料結構,實際上,有兩種並行的後設資料架構,分別用於結構化環境和非結構化中。
    對於非結構化資料而言,有兩種型別的後設資料--企業型和本地型。企業後設資料被認為是通用後設資料。本地後設資料被認為是專項後設資料。
    對於結構化資料有三個層級:企業級,本地級,業務和技術級,這些不同型別的後設資料之間有著非常重要的聯絡。
    本地後設資料存在於ETL處理、DBMS字典以及BI等工具中,這種工具對描述和其直接相關的後設資料非常有用。
    企業後設資料儲存在對DW2.0環境下的所有工具和過程來說都很重要的本地當中。企業後設資料一起形成知識庫。實際上,除了歸檔區之外,
所有區域都將他們的後設資料儲存在知識庫中。

主動知識庫/被動知識庫
    主動知識庫後設資料隨著系統的發展和查詢活動的變化不斷地進行互動。被動知識庫後設資料不能直接隨系統的發展和查詢活動變化而不斷
進行互動。不推薦使用被動知識庫,因為終端使用者和開發者的活動是獨立於後設資料知識庫的。因為大部分的機構都會盡可能地減少工作量,
降低開支並儘快完成任務,所以任何可選擇的工作都將無法完成。被動後設資料知識庫像程式說明書一樣,經驗豐富的開發者會省去這項工作
主動知識庫用來放置企業後設資料,後設資料在開發和資料查詢中經常被用到。使用後設資料進行的開發和資料查詢與後設資料知識庫密不可分。

企業後設資料
    企業後設資料和本地後設資料之間有很多不同的關聯。
    1、語義關聯。企業為公司定義了一個全域性術語,之後描述了術語的本地使用,並用指標指向可以在其中找到術語使用的本地系統。假如
三個本地系統與企業術語“收益”相關,三個本地系統中的術語分別是“收益”,“金錢”,“資金”。這三個不同的詞彙在這個例子中代
表了相同的意思。企業後設資料能夠讓企業很好地瞭解這些同義詞術語。
    2、另一個非常重要的資料關聯經常出現在企業物件域定義中。假設有一個物件域“顧客”,其定義在企業層。在本地層可以找到關於
顧客的不同資訊。在第一個本地系統中存有顧客的姓名及地址資訊,第二個本地系統中存有關於顧客年齡和購買偏好的資訊,第三個本地
系統中掌握顧客收入、學歷、社會保險號等。企業後設資料層可用於確定本地系統在哪裡儲存了對主要業務物件的支援資料。
    3、原屬於可以用於為企業的資料物件和資料屬性定義記錄系統。在記錄系統中,每個資料的最終來源是明確的。對於企業中的主要物件
的多種資料屬性而言,有多個記錄系統是正常的。資料定義和本地後設資料層與企業後設資料層間的關聯定義之間存在重疊的部分,但他們之間
也存在差異。
    在DW2.0中海油一種後設資料關係同樣重要。業務後設資料和技術員資料。業務後設資料用業務人員的行話來說,是指對資料的業務描述。技術

後設資料是指對資料的技術描述。
    DW2.0中非結構化資料有屬於自己的後設資料。非結構化環境的後設資料與結構化環境後設資料有很大差別。
    1、分類,簡單說,分類是對一個大主題的一種細分,通常會包含對一個給定主題元件的詳細分解。詞彙表和本體論都與分類有關。非結
       構化環境下存在兩種基本的分類,內部分類和外部分類。內部分類僅僅由文字中的單詞和短語組成。內部分類是對非結構化資料文字
       中的主要物件域的一種宣告。有時內部分類被稱為主題。外部分類來源很廣,外部分類有時就產生於真實的環境。外部分類與一個
       非結構化資料實體可能存在關係也可能沒有任何關係。

內部分類/外部分類
    非結構化後設資料有很多不同的形式。其中一些型別的後設資料是非結構化環境中比較普遍的
    1、無用詞--一些在說話中用到但是對文字的意義不重要的詞。
    2、同義詞--意思一樣但是有不同拼寫的詞
    3、同形詞--拼寫相同但是意思不一樣的詞
    4、可互換的拼寫--同一個單詞的多種可以接受的拼寫

歸檔區後設資料
    對歸檔區後設資料會有一些異常情況。在歸檔區中,與歸檔過程相關的後設資料儲存在歸檔資料本身中。之所以將他們放在一起,是因為
如果將後設資料與其相關的歸檔資料並排相放,那麼隨著時間推移後設資料會丟失。當然,歸檔環境也可以儲存獨立的後設資料集。但是對歷史數
據的查詢最頻繁並且也最可能有用的第一儲存地點是歸檔資料本身。

維護後設資料
    後設資料面臨的一個重大挑戰不是後設資料環境最初的建立,而是對遠水環境的持續維護。當一個變化發生時,主動後設資料環境比被動元數
據更易適應改變。在被動後設資料環境下,改變很容易被忽視。一個變化發生以及由此導致的一系列改變在被動後設資料環境下會產生延遲。
主動後設資料知識庫有規律地顯示出變化以便對現有系統進行正常的更新和維護,當系統發生變化時,後設資料也必然隨之改變。
    使用後設資料與儲存及定期更新遠水一樣重要。儘管使用後設資料有很多種方式,但利用終端使用者互動式處理的使用者介面也許是最有效方法

終端使用者的觀點
    在DW2.0中,後設資料的使用者很廣。後設資料為不同區的資料提供互動服務,他扮演的角色既像環境的文件,又像為DW2.0環境新增資料的
線路圖,不過它最重要的作用在於為DW2.0中的資料內容及關聯提供指導。
    終端使用者對DW2.0中的資料和關聯需要指導。在DW2.0環境下,如果終端使用者得到了已經存在的那些資料的指導資訊,那麼他就有可能
重用這些資料。終端使用者看不到已經完成的那些分析工作,所有工作必須從頭開始。
    在多數情況下,每次分析都要從頭開始簡直就是多此一舉。運用後設資料就不需要這個多於的步驟了。分析員可以在已有分析上進行。
    在業務使用者看來,後設資料還可以用於顯示資料的整合。在很多情況下,分析員將一個資料單元看做分析工作的一部分,而業務使用者需要
知道收的來源以及資料是如何計算出來的。在DW2.0中,後設資料能夠提供這種重要的功能。
    從業務使用者的角度看,有時存在著對資料的一致性需求。後設資料對稽核跟蹤提供了關鍵部分,而這對分析環境一致性至關重要。

總結:
    後設資料是資料重用性和分析的關鍵。分析員透過後設資料能夠知道哪些工作已經完成。
    後設資料有四個層次:
    企業、本地、業務、技術
    後設資料既可以用於結構化環境,也可以用於非結構化環境中。後設資料知識庫分為主動和被動兩種,主動後設資料知識庫比被動後設資料知識
庫更有用,在開發和分析階段互動使用的後設資料知識庫被稱為主動知識庫。
    後設資料知識庫完整地定義了資料倉儲記錄系統。
    非結構化後設資料由分類,詞彙表,本體組成。後設資料從形式上分為內部後設資料和外部後設資料。
    歸檔後設資料直接儲存在歸檔區。透過將後設資料與其描述的歸檔資料都儲存在相同的物理儲存上,就可以建立一個資料的時間封閉倉庫。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1318754/,如需轉載,請註明出處,否則將追究法律責任。

相關文章