DW2.0-下一代資料倉儲架構
DW2.0-下一代資料倉儲架構,DW2.0 - The Architecture for the Next Generation of Data Warehouse
[@more@]DW2.0 - The Architecture for the Next Generation of Data Warehouse
資料倉儲始於20世紀80年代中期。在1990年第一本關於資料倉儲的圖書出現後,資料集市、ODS、DSS應用等與資料倉儲相關的概念開始依次出現。
在資料倉儲概念出現的同時,技術的進步促進了資料倉儲的商業化程式。DBMS處理超大量資料的能力逐步增強。儲存資料用的磁碟的價格大幅度下降。新的儲存介質如磁帶等出現。商業智慧供應商的出現。資料倉儲在短短的幾年內就由理論步入了現實應用中。
然而,隨著資料倉儲的逐步建立,人們對資料倉儲的理解逐步出現了偏差。很多諮詢公司正在建立一些不是真正資料倉儲的資料倉儲。有些供應商在談論著建立實時資料倉儲,而在他們建立的資料倉儲方案中根本沒有這一部分。一些面向資料倉儲技術的研討會探討著事實上並不是資料倉儲的資料倉儲解決方案。從那些人對資料倉儲表述的概念中可以看出,他們建立的一種簡化而無效的資料倉儲形式,而事實上並不能稱之為資料倉儲。
總結來說,人們對資料倉儲的理解正在逐步走向錯誤。人們正在使用一些過時的資料倉儲概念或者與資料倉儲很相似但不是真正資料倉儲的概念在銷售他們的產品和服務,這些人在銷售他們產品和服務時不會去考慮他們自己提出的這些概念到底是正確的還是錯誤的。
在人們對資料倉儲具有著混亂的理解的同時,DW2.0誕生了。
本日誌來源於。
附:Inmon的DW2.0好像一個宣戰書,至於文中是否有些文字有些偏頗,其實是智者見智的事情。個人覺得,工程上的東西沒有絕對的正確和錯誤,主要是看是否能解決實際問題。有關DW2.0的內容可以參照。
DW2.0 - the arthitecture of the next generation of data warehousing - 對現代資料倉儲進行了簡明而又清晰的描述。DW2.0已經被Bill Inmon和Inmon Data Systems註冊為商標,未得到允許不能用於商業用途。透過DW2.0,大家可以知道現代的資料倉儲到底是什麼樣子的,不是什麼樣子的。那些供應商、諮詢商未得到Bill Inmon的書面許可是不可以為了自己的目的而去曲解DW2.0的本意。
在過去的二十年中,資料倉儲的概念一直在逐步的進化中,而DW2.0是對資料倉儲概念最現代的理解和描述。
Bill Inmon的網站包含了DW2.0詳細的定義和描述。所有的內部被分為不同的章節。其中的每一個章節都相當於該部分內容的白皮書。在閱讀時,大家可以根據自己的需要順序閱讀或者挑選某些章節閱讀。
網站中的DW2.0的內容是為非商業目的讀者提供的。對於出於商業目的而需要使用DW2.0的人或企業,可以透過交相應的費用得到許可。
如需要DW2.0更詳細的資訊或者對DW2.0有任何疑問,請聯絡Carol Renne(303.973.3788),電子郵件為crenne@inmondatasystems.com。
附:這段文字只是照搬過來的,雖然它看起來更像是廣告,但廣告並不是我的本意,我只是想了解一下資料倉儲領域的新動態。
DW2.0的章節目錄如下:
簡介 - 對現代資料倉儲的一個整體描述。
中心資料倉儲的區域劃分相關章節:
1.互動區(Interactive Sector) - 資料倉儲中對效能要求較高的處理所在的區域,是DW2.0中心資料倉儲的一部分。
2.整合區(Integrated Sector) - 資料倉儲中整合資料的區域,是DW2.0中心資料倉儲的一部分。
3.近線區(Near Line Sector) - 資料倉儲中訪問頻率較低的資料的儲存區域,是DW2.0中心資料倉儲的一部分。
4.歸檔區(Archival Sector) - 資料倉儲中訪問頻率非常低的資料的儲存區域,是DW2.0中心資料倉儲的一部分。
開發相關章節:
5.DW2.0中的System of Record - DW2.0中維護資料完整性和可信性的資料。
6.建立DW2.0 - 建立DW2.0的相關技術和方案。
7.DW2.0建立方法學 - 關於螺旋式開發方法學的討論。
8.模型 - 在開發過程中,業務模型和資料模型的角色及作用。
9.從時間價值來考慮資料 - 考慮到時間的因素,資料應該被如何構建。
DW2.0內容相關章節:
10.DW2.0 - DW2.0內容的定義。
11.DW2.0的聯通性 - 描述DW2.0中各部分是如何聯絡在一起的。
12.非結構化資料 - 描述DW2.0中的非結構化資料。
其他元件相關章節:
13.虛擬運算元據儲存(VODS) - 虛擬運算元據儲存(The virtual operational data store)相關內容。
14.探索倉庫(Exploration Warehouse) - 為執行大量統計程式方便而建立的一個區域。
15.ETL - 描述運算元據整合到資料倉儲的過程。
16.資料集市(Data Marts) - 從多維的角度分析資料的一個區域。
17.粒度管理器(Granularity Manager) - 描述當資料的粒度太低時應該作些什麼處理。
18.後設資料(Metadata) - DW2.0中本地後設資料和企業後設資料的概念。
其他主題相關章節:
19.全域性資料倉儲(Global Data Warehouse) - 當企業需要多個資料倉儲時如何來處理。
20.從多個儲存裝置(Multiple Storage Media)上訪問資料 - 從多個儲存裝置上訪問資料的技術和方案。
21.效能 - 充分使用資料倉儲。
22.移植 - 從第一代資料倉儲移植到第二代資料倉儲。
23.成本判斷 - 關於為什麼要建立資料倉儲的內容,也是企業需要知道的內容。
本日誌來源於。
附:本部分列出了DW2.0中各部分的內容。有個事情要注意一下,Inmon的資料倉儲體系中有些名詞和Kimball的名詞之間是有些差別的,差別最大的就是資料集市(Data Marts)。
中心資料倉儲的區域劃分相關章節:
1.互動區(Interactive Sector) - 資料倉儲中對效能要求較高的處理所在的區域,是DW2.0中心資料倉儲的一部分。
互動區(interactive sector)是DW2.0中最有用的部分之一,它在DW2.0中的位置處於中心資料倉儲和源系統之間的最前沿,是線上處理事務發生的地方。在互動區中,我們可以得到真正的OLTP的反映時間。
(在DW2.0中,Inmon把中心資料倉儲區分成了四部分,分別是互動區、整合區、近線區和歸檔區,而互動區是中心資料倉儲和源系統最近的區域,能最先反映出源系統的資料變化。)
互動區環境的另一個特色是會有更新操作發生在這個區域。
當更新和線上處理事務出現時,這些操作需要儘快的反映在互動區中。為了實現這個目的,互動區的資料更新方式有兩種,第一種處理方式是在交易級別進行更新,即業務系統的交易完成後直接提供互動區,互動區的資料在交易的粒度同步。另一種處理方式是儘可能短的後臺批次處理級別。
正因為資料載入到互動區需要非常短的時間間隔,所以載入到互動區的資料通常是未經過完全整合的。
儘管進入互動區的資料未經過完全的整合,但是這部分資料的用處是非常大的。
在資料從互動區進入整合區(integrated sector)時,需要對資料進行完全的整合。資料整合的過程是透過一系列的ETL過程完成的。
互動區中的資料是儲存當前資訊的,也就是說,互動區的資料在使用者訪問的時刻是準確的。下面列出的是互動區資料的例子,
- 客戶的帳戶餘額。
- 航線上飛機的當前狀態。
- 保險政策的當前狀態。
- 貸款的金額。
由於對互動區的資料有很高的效能要求,所以互動區中的資料量是比較小的。在互動區中,很少會保留歷史資料。
一般來說,互動區的資料是秒級別的細節資料,它的直接使用者在大多時候是一般辦公人員(clerical community,估計應該指的是操作人員以外的職員,如行政人員、辦公人員等)。
在互動區中常用的查詢大多很小,只需要小量的資料,執行起來會非常的快。而統計分析類的查詢很少發生在互動區。商業智慧程式可以訪問互動區,也就是說,報表和OLAP可以從互動區獲得資料,當然,其他類似的分析也可以。
對於在互動區使用OLAP處理的人員來說,有一個問題一定要注意,互動區的資料是會發生變化的,所以在互動區的分析只是在分析的當時是準確的。
舉例來說,如果一個分析查詢發生在上午9:15,而相同的另一個分析查詢發生在下午2:39,這兩個發生在互動區的相同的查詢由於查詢時間的不一樣,得到的結果很可能不一樣。查詢所基於的資料在這個時間段內很可能已經變化好幾次了。所以互動區的分析查詢者一定要注意,這裡的查詢是反映當前值的查詢。
互動區的資料是可以被更新的。當互動區中的資料過了它的更新時限後,就需要將它遷移到整合區。(也就是說,我們需要定義或者找到資料的更新時限,即我們不能假定操作環境中的資料可以無限期的更新,當資料過了這個更新時限後,我們認為這個資料就是穩定的了,將其遷移如整合區。這裡和Inmon的原來架構中的資料倉儲有些不同,更像是原來架構中的ODS部分。)
互動區的設計要綜合考慮資料模型和業務處理模型(process model)。(在Inmon以前的架構中進行資料倉儲建模時,只需要考慮資料模型,而業務處理模型是建立操作型系統要考慮的事情,這裡Inmon提出互動區要考慮兩種模型,是對資料倉儲和操作型系統的一個融合。)
互動區中有些部分是對效能要求很高的,有些部分是需要滿足一些操作型要求的,這些部分的建模會受業務處理模型影響較多。而其他部分則主要受資料模型的影響。
互動區的資料儲存方式應該放到磁碟上。(和後面提到的近線儲存、磁帶等相比。)能直接訪問到最重要的處理過程資料的能力對互動區是非常重要的,所以要儘可能的保證這部分的訪問速度。
通常訪問互動區中的資料的模式是隨機方式的。也就是說,由於各自源系統都會不時的產生交易,而這部分資料在互動區中也是隨機儲存在磁碟的各個位置的。(也就是說互動區的資料儲存方式是隨機,查詢需要的資料可能儲存在磁碟的任何地方,這對於小量資料的查詢影響不大。)
2.整合區(Integrated Sector) - 資料倉儲中整合資料的區域,是DW2.0中心資料倉儲的一部分。
DW2.0的中心資料倉儲包含四部分,分別是互動區、整合區、近線區和歸檔區。資料在各種情況下進入DW2.0的互動區,當互動區中的資料穩定後,即過了更新時限後,資料進入整合區。
整合區(integrated sector)有兩個主要的資料來源,一個是互動區,另一個是操作型源系統。整合區的資料流向為近線區。
當資料從任何地方進入整合區時,都需要進行整合處理。整合的過程通常是ETL處理過程。而保留在整合區中的任何資料都是整合後的資料。
從另一個角度來考慮,整合區中的資料都是企業資料(corporate data)。企業資料的意思是資料是可以在企業的視角上檢視的整合後的資料。(整合區應該是DW2.0的核心區域,和Inmon原來資料倉儲架構中的EDW應該比較相似。)
整合區中的資料可以分為兩部分,分別是當前整合資料(current integrated data)和活動分析資料(active analytical data)。
當前整合資料是比較細粒度的資料,它在DW2.0環境中是其他分析應用的基礎。粒度資料在各種處理中被廣泛應用。
活動分析資料也是以粒度資料為基礎的,用來支援可預見的統計分析過程。當一個企業定期的做一些統計處理時,就需要建立活動分析資料區給這些統計處理提供資料。(我的理解是當前整合資料和活動分析資料都是原子粒度資料,其中的當前整合資料是給各種應用使用的,而活動分析資料是專門為統計處理準備的。統計處理需要的資料量大,所以單獨準備資料提高效能。換句話說,當前整合資料和活動分析資料應該有很多是重合的,即為了不同的目的分別儲存了兩份。)
在幾乎所有的情況下,當前整合資料和活動分析資料都需要在物理上分開儲存。有很多理由可以說明將它們從物理上分開是有好處的。
當前整合資料區為資料倉儲系統中其他各種部件提供資料,包括資料集市、報表系統、DSS應用等。
更經常的情況是,當前整合資料區中的資料是非直接使用的。作為一個非直接使用的例子,我們可以考慮在當前整合資料區中儲存著一些資料,這些資料會被處理成另一種形式的資料儲存到資料集市中。在資料集市中,分析程式和展現程式都可以直接使用這些資料。
有時,報表系統會直接從當前整合資料區直接讀取資料。通常來說,只有在其他地方都不能完成的資料讀取操作,才會到當前整合資料區讀取。
當前整合資料區和活動分析資料區中的資料互相也需要是整合的,至少在關鍵粒度上應該上整合的,而能在最低粒度上整合是最好的。
當資料進入當前整合資料區,就需要將它們整合簡化為粒度模式。使用者可以為了滿足各種需求將這種粒度模式的資料很容易的改造成其他模式。這種重新改造包括摘要(Summarize),聚集(Aggregate),結構重整(Restructure)等操作方式。
整合區中資料的另一個特色是對這部分資料的訪問頻率非常高,並且對整合區中每部分的資料的訪問頻率都很高。當然,資料訪問頻率的高低和資料儲存的時間也有很大的關係。在整合區中,當前整合資料區的資料通常儲存的時間是從當前到36個月。活動分析資料區的資料儲存時間通常是不確定的,是個比較寬的範圍。
不同資料區儲存資料的時間長短不一樣,主要是因為不同資料區的使用者不同,農場主(Farmers)主要使用當前整合資料區的資料,而探險家(Explorers)主要使用活動分析資料區的資料。
活動分析資料區的資料支援可以預見到的統計分析處理。
活動分析資料區中的資料的儲存時間可能會大於36個月,而且活動分析資料區的還會根據訪問資料的型別的不同而不同。例如,如果我們預見的統計分析處理需要的是分析客戶的資料,那麼像銷售資料、產品資料、人力資源資料等就可以不儲存到活動分析資料區中。
由於在整合區中,分析資料的範圍比較廣泛,所以我們需要去監測這些資料的訪問情況。
監測整合區中資料的訪問情況,對我們理解資料的用途是很有好處的。通常的監測如下所示,
-哪個表被訪問了。
-哪個行被訪問了。
-哪個欄位被訪問了。
透過這些監測情況,管理員還可以判斷出另外一些情況,
-哪個表沒有被訪問。
-哪個行沒有被訪問。
-哪個欄位沒有被訪問。
理解整合區中資料的使用情況是非常重要的,這些資料的訪問頻率決定了這些資料是否應該保留在整合區中。這些資料的訪問頻率也決定了資料是否應該進入活動分析資料區。根據資料的訪問頻率,我們會將當前整合資料區中的資料遷移入活動分析資料區。
整合區中的資料儲存形式一般是快照資料。這因為整合區中儲存的是快照資料,所以在整合區中是沒有更新操作的。
和互動區的查詢不同,整合區中的查詢通常是需要訪問大批次的資料。整合區中每個查詢訪問的資料量都不小,有些查詢可能會訪問相當大量的資料。
整合區使用最多的使用者是辦公人員(clerical community)。辦公人員是使用整合區最多的分析人員,他們一般來說是間接使用整合區的資料,即透過資料集市和DSS應用來訪問這些資料。
商業智慧程式可以直接在整合區上執行。
商業智慧程式執行在互動區和整合區有著較大的不同。在互動區,結果反映的是分析當時的情況。而在整合區,分析的過程是可以復現的。也就是說,我們在早晨執行的分析,如果在下午同樣的執行一遍,結果會是同樣的。即不會由於執行時間的不同產生不同的結果。
互動區和整合區另一個較大的不同是它們設計的基礎不同。互動區的設計需要綜合考慮業務過程模型和資料模型。而整合區則只需要考慮資料模型。(整合區的建模和Inmon原來的資料倉儲建模比較像,和Kimball的維度建模有著較大的差別。Kimball一直在批評Inmon在建模時只考慮資料模型,導致建好的模型很難讓使用者理解。當然,這也是由於他們架構資料倉儲的方式不同造成的。)
整合區中資料的儲存介質是磁碟,保證較好的訪問速度。
整合區中資料的訪問模式是順序隨機(sequentially random)訪問的。也就是說,當第一條記錄被隨機的找到後,通常會順序的訪問第一條記錄後面一大批其他資料。所以整合區中,訪問資料一般都是先隨機的找到一條資料,然後在順序的訪問這條資料後的一系列資料。
3.近線區(Near Line Sector) - 資料倉儲中訪問頻率較低的資料的儲存區域,是DW2.0中心資料倉儲的一部分。
在DW2.0中,近線區是位於整合區和歸檔區中間的一部分割槽域。
近線區的資料直接來自與整合區,並且全部來自與整合區。當整合區中的資料訪問頻率下降到一定程度後,或者整合區中的資料到達一定年齡後(如超過36個月),就可以遷移到近線區中。
也就是說,資料從整合區遷移到近線區需要綜合考慮兩個因素,一個是資料的年齡,另一個是資料的訪問頻率。
當資料遷移到近線區時,需要注意的一點是,資料要保持在整合區中的結構形式。這樣做的原因是,當近線區中的資料需要返回整合區時,可以很快的完成遷移操作。
在資料遷移到近線區時,需要建立後設資料。資料進入近線區時建立後設資料是非常重要的,因為以後訪問近線區中的資料需要透過後設資料來進行。另外在資料進入近線區時,建立索引也是很重要的一步。透過後設資料我們可以知道各類資料儲存在什麼地方,透過索引我們可以資料的具體內容。所以,在資料進入近線區時,強烈建議建立後設資料和索引。
資料進入近線區的方式之一是直接從整合區複製記錄。透過這種複製方式進入近線區的資料在需要時可以很容易的返回整合區。
資料進入近線區的另一種方式是經過結構重整(restructured)後進入近線區。除了在近線區中有其他的處理需要對資料進行結構重整外,不建議對資料進行結構重整,結構重整給近線區中的資料返回整合區帶來了較大的麻煩。
近線區中使用的儲存裝置是比較便宜的裝置,所以可以考慮為了滿足各種需求引入冗餘資料進入近線區。
近線區中資料組織規則中之一是,資料應該按照高階別的日期進行組織,通常來說是按照年來進行組合儲存。
近線區的後設資料覆蓋面比較廣,類別也比較多。
近線區的後設資料包括通常的後設資料條目,如
-表名。
-屬性。
-物理特徵(physical characteristics)。
近線區的後設資料還包括其他後設資料條目,如
-資料載入日期。
-資料展現日期。(date represented by the data,感覺應該是載入到近線區以前資料曾經用來展現使用的時間。)
-載入的資料量。
-編碼值(encoding values)。
-使用的參照表(reference tables used)。
-資料來源資訊。等等。
在很多情況下,近線區和整合區中的資料都會有資料塊的交換,透過這些資料塊的交換,近線區和整合區緊密的連線在一起。
整合區和近線區的資料交換是雙向的,當認為資料的訪問頻率降低到一定程度後,資料從整合區進入近線區,當發現事實上資料的訪問頻率比預想的要高時,資料從近線區返回整合區。
透過這種雙向的資料交換,近線區就相當於整合區的快取,相當於整合區的擴充套件。
為了能無縫的進行這種資料交換,必須要保證兩邊的資料在記錄級別是相相容的。
關於這部分,經常會有下列問題被提出來:
-什麼時候需要將近線區中的資料返回到整合區?
-將資料從近線區回遷到整合區是否需要大量的時間?
-這種將資料從近線區回遷到整合區的處理方式是否會引起整個資料倉儲系統的效能下降?
資料從近線區回遷到整合區,一定會引起資料倉儲系統的效能下降。但是事實上,這樣的資料回遷發生的頻率是非常小的。資料之以要遷入近線區,就是因為它的訪問頻率非常低,如果訪問頻率高的話,就沒必要將資料從整合區向近線區遷移。
當資料從近線區回遷入整合區時,資料的移動是隨機順序方式(random sequential manner),所以在回遷中尋找第一個記錄時會有較大的效能下降,找到第一條記錄後的順序訪問記錄對效能的影響不大。
正是由於這種隨機順序的回遷方式,及很低的資料訪問頻率,所以近線區到整合區的資料回遷對資料倉儲的整體效能的影響並不大。
近線區中的資料也可以獨立的被訪問,而不需要回遷到整合區中。
近線區中的資料儲存在近線儲存器(near line storage)上,而不是磁碟儲存器上。(近線儲存器沒接觸過,感覺可能是聯機的磁帶之類。)
近線區中的資料儲存結構和整合區類似,儲存的是資料的快照。當在近線區的資料中發現錯誤時,需要建立新的快照資料進行錯誤勘誤。
為了查詢資料的方便,需要在近線區中建立索引。近線區中的索引可以在資料載入到近線區時建立,也可以在載入完後建立。這些索引可以稱為“被動式”(passive)索引。(被動式的索引指不是根據已知的查詢需求來定製索引,而是預測將來可能使用的情況來定製索引。)
近線區應該建立在獨立的硬體環境中。近線區中的處理器應該保證有充足的空閒資源,這些空閒資源可以用來建立索引,也可以用來使用索引。當需要近線區的資料時,透過索引可以快速的查詢到需要的資料位置,然後可以從這個位置迅速的順序讀取大塊資料。
對於資料倉儲中相對不經常使用的資料來說,可以將它們儲存在散裝儲存器(bulk storage)上,散裝儲存器相對於磁碟儲存器是一種較慢的、較便宜的、可以長時間儲存大量資料的儲存裝置。散裝儲存器通常也稱為近線儲存器(near-line storage),通常是順序讀取的儲存器。
近線儲存相當於資料倉儲的邏輯擴充套件。有時,資料的真正位置可以做到對使用者是透明的。舉例來說,當使用者提交一個查詢時,她不需要知道返回的資料是儲存在磁碟儲存器還是近線儲存器中。這時,磁碟儲存和近線儲存的資料切換應該由系統完成。
近線區和整合區的資料交換通常有三種方式,
第一種方式是資料庫管理員手工遷移資料。這種方式的優點是實現起來比較簡單,可操作的資料級別細,如在記錄的級別進行遷移。缺點是容易出錯,需要人機互動。
第二種方式是使用分級儲存管理(hierarchical storage management,HSM)機制來進行。這種方式的優點是可以實現全自動的資料互動,實現相對比較簡單,價格也不是很昂貴。缺點是操作的資料級別太粗,不能在記錄級別進行互動。
第三種方式是使用交叉儲存管理(cross-media storage management,CMSM)機制來進行。這種方式的優點是可以實現全自動的資料互動,可以操作的資料級別細,到記錄的級別。缺點是實現複雜、價格昂貴。
後兩種實現方式都是自動實現資料互動的,這是一個發展趨勢。
4.歸檔區(Archival Sector) - 資料倉儲中訪問頻率非常低的資料的儲存區域,是DW2.0中心資料倉儲的一部分。
DW2.0環境中的第四個區域是歸檔區,處於中心資料倉儲的最後端的位置。
歸檔區(archival sector)中的所有資料都來源於近線區。
當近線區中的資料訪問頻率繼續大幅度下降後,資料從近線區遷移入歸檔區。事實上,歸檔區中的資料訪問頻率幾乎為零。
很多情況下,是出於法律的原因,即使資料的訪問頻率已經接近零了,但是資料還需要保留下來,這時資料進入歸檔區。也就是說,歸檔區中的資料不是因為訪問頻率而是由於法律的原因才被儲存下來。
從哲學的觀點來看,企業既然已經費力將資料儲存成電子格式,那麼再將這些資料拋棄不是一個很好的選擇。而且在資料的儲存過程中,很多資料進行了結構重整,將這些資料拋棄掉,如果回頭還需要使用的話,就很有可能就再也找不到這些資料了,即使找到,也需要高昂的成本來重整這些資料。所以,如果資料有一點點的可能將來使用,就不應該將資料拋棄掉。
歸檔區儲存資料的另一個原因是,使用歸檔區儲存資料相對來說是價格比較低廉的。歸檔區的資料不會保留在磁碟上。
歸檔區的資料通常儲存的時間比較長,10年、20年或者更長。這些資料都是按時間來儲存的,通常是按年來儲存。
正因為歸檔區中的資料非常的多,而且是按照時間來儲存的,所以在歸檔區中,後設資料顯得更為重要。我們需要透過後設資料來定位歸檔區中的各種型別的資料。
歸檔區中如果沒有建立後設資料,資料就只能順序訪問,必須花費大量的資源從整個檔案中掃描。建立了後設資料,就可以透過一種相對高效的方式定位資料。
從資料儲存的結構來看,歸檔區中的資料可以採用多種格式儲存。可以直接複製近線區的記錄進行儲存,可以將記錄進行拆分(split),也可以將記錄進行合併(combine)。
和後設資料的功能相似,索引也是歸檔區中定位資料的有用工具。後設資料描述了歸檔區中的資料的型別,索引描述了資料的內容。
通常歸檔區也有單獨的處理器來管理資料,而且大多數時候,這些處理器是空閒的。可以利用這些空閒的處理器在歸檔區中建立索引。因為歸檔區中的資料的使用情況是未知的,所以只能預測可能出現的使用情況來定製索引,也稱之為被動式索引。
當歸檔區中的被動式索引和後設資料都建立完成後,歸檔區就可以提供一個相對可以接受的訪問效率了。
歸檔區的後設資料需要和資料一樣儲存在歸檔區中,這樣可以防止將來後設資料和資料分離,出現對不上的情況,給將來讀取資料帶來麻煩。歸檔區中的資料需要儲存很久的時間,所以將後設資料和資料儲存在一起是非常必要的。如果後設資料丟失了,歸檔區中的資料讀取會變得非常麻煩,資料的用處也就不大了。
歸檔區中的資料的讀取模式也是順序隨機模式。訪問歸檔區中的資料,通常都是先定位第一條記錄的位置,這個位置是隨機的,定位後順序的讀取大量的資料。
一般需要訪問歸檔區的資料時,都是大批次的資料訪問。
歸檔區中的資料儲存方式也是以快照的模式進行儲存。
當歸檔區中出現錯誤資料時,通常是將錯誤的資料刪除,再建立正確的快照資料。
偶爾歸檔區中的資料訪問頻率變大,需要將歸檔區中資料回遷到前面的幾個資料區中,這時,資料回遷到DW2.0的互動區、整合區或者近線區都可以。
本翻譯日誌來自:http://www.chinabi.net/blog/user1/lastwood/index.html
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-891192/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 資料倉儲架構分層設計架構
- DW2.0下一代資料倉儲架構_第1章 遷資料倉儲簡史及第一代資料倉儲(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構 前言(讀書筆記)架構筆記
- 資料倉儲和商業智慧領域的又一部經典著作——《DW 2.0:下一代資料倉儲的構架》
- 資料湖是下一代資料倉儲?
- 構建資料倉儲
- 分層架構在資料倉儲的應用架構
- 資料倉儲(5)數倉Kimball與Inmon架構的對比架構
- 怎樣的架構設計才是真正的資料倉儲架構(轉載)架構
- 美團DB資料同步到資料倉儲的架構與實踐架構
- DW2.0下一代資料倉儲架構_第16章 遷移(讀書筆記)架構筆記
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- DW2.0下一代資料倉儲架構_第11章 時間相關資料(讀書筆記)架構筆記
- 論資料倉儲架構前需要考慮的問題架構
- 談談資料倉儲架構的發展和分類架構
- 如何構建資料倉儲模型?模型
- 資料倉儲的構建(ZT)
- DW2.0下一代資料倉儲架構_第12章 DW2.0的資料流(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第8章 資料模型和DW2.0(讀書筆記)架構模型筆記
- DW2.0下一代資料倉儲架構_第19章 DW2.0和非結構化資料(讀書筆記)架構筆記
- 資料倉儲之大規模並行處理架構原理NY並行架構
- Hive:資料倉儲構建步驟Hive
- 資料倉儲—資料倉儲—Sybase IQ 介紹
- DW2.0下一代資料倉儲架構_第4章 DW2.0中的後設資料(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第10章 DW2.0與安全(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第2章 DW2.0簡介(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第15章 DW2.0和效能(讀書筆記)架構筆記
- 資料倉儲架構到底選擇內部部署還是上雲?架構
- 馬蜂窩資料倉儲的架構、模型與應用實踐架構模型
- 資料倉儲架構師的崗位職責和崗位要求架構
- 資料倉儲
- 讀資料湖倉08資料架構的演化架構
- 讀資料湖倉04資料架構與資料工程架構
- 設計資料倉儲和資料倉儲的粒度
- 資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?架構
- DW2.0下一代資料倉儲架構_第23章 管理DW2.0環境(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第21章 多方面的話題(讀書筆記)架構筆記