資料倉儲入門之基本概念

weixin_34082695發表於2017-04-17

1.背景

首先,要了解資料倉儲的產生,在網際網路的迅猛發展,各種各樣的軟體層出不窮,一家公司擁有的系統可能要越來越多,越來越複雜。在資料庫技術的支援下,一大批成熟的業務資訊系統投入執行,為企業發展做出了巨大貢獻。各類資訊系統大多屬於面向事務處理的OLTP系統,經過多年的執行,積累了大量的資料,而管理決策層對資料分析基礎平臺的需求卻日益強烈。那麼問題就來了,兩個部門提供的資料是不一樣的,讓管理者無所適從;由於OLTP的單項系統導致資料的分散性和相同元素定義不一致所致不可能把資料轉換成資訊;不同的需求,要求將操作型環境和分析型環境相分離;單項系統之間保留的歷史資料時間範圍不一致,無法滿足DSS分析的需要資料的綜合問題:非細節資料、多種程度的綜合 提升現有的資訊。這一系列的問題便困擾著企業的管理者。這時,資料倉儲的出現,便是要解決這樣的難題。

那麼資料倉儲能帶給我們什麼呢?

1.企業範圍內的資訊共享

2.準確、一致的整合資料

3.面向整個企業和終端使用者,針對分析需要,進行資料重組,形成一套全新的、相對完整的資料檢視,能夠進行快速訪問,精確、靈活分析


2.概念

什麼是資料倉儲,資料倉儲是一個面向主題的、整合的、相對穩定的、隨時間變化的資料的集合,以用於支援管理層決策過程。

那麼通過上述的定義可以很容易的看出,資料倉儲的四個特點:

1.面向主題:操作型資料庫的資料組織面向事務處理任務,各個業務系統之間各自分離,而資料倉儲中的資料是按照一定的主題域進行組織。主題是一個抽象的概念,是指使用者使用資料倉儲進行決策時所關心的重點方面,一個主題通常與多個操作型資訊系統相關。

2.整合的:面向事務處理的操作型資料庫通常與某些特定的應用相關,資料庫之間相互獨立,並且往往是異構的。而資料倉儲中的資料是在對原有分散的資料庫資料抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源資料中的不一致性,以保證資料倉儲內的資訊是關於整個企業的一致的全域性資訊。

3.相對穩定的:操作型資料庫中的資料通常實時更新,資料根據需要及時發生變化。資料倉儲的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一旦某個資料進入資料倉儲以後,一般情況下將被長期保留,也就是資料倉儲中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、重新整理。

4.反映歷史變化:操作型資料庫主要關心當前某一個時間段內的資料,而資料倉儲中的資料通常包含歷史資訊,系統記錄了企業從過去某一時點(如開始應用資料倉儲的時點)到目前的各個階段的資訊,通過這些資訊,可以對企業的發展歷程和未來趨勢做出定量分析和預測。


3.四個層次體系結構

瞭解了基本概念之後,我們還需要知道資料倉儲的四個層次體系結構:

1.資料來源:包括企業的內部資訊和外部資訊。

2.資料的儲存和管理:針對現有的業務系統資料,進行抽取、清洗、並有效整合,按照主題進行組織。

3.OLAP伺服器:對分析需要的資料進行有效整合,按多維模型予以組織,以便進行多角度,多層次的分析,並發現趨勢。

4.前端工具:包括各種報表工具、查詢工具,資料分析工具,資料探勘工具以及各種基於資料倉儲或集市的應用開發工具。


4.相關概念

BI:BusinessIntelligence,即商業智慧,一類由資料倉儲(或資料集市)、查詢報表、資料分析、資料探勘、資料備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用

資料探勘:從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計學、資料庫、視覺化技術等

OLAP:On-Line Analytical Processing是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果

OLTP: on-line transaction processing,傳統的關係型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易

資料集市:面向特定主題和部門級的資料倉儲,是資料倉儲的子集,資料倉儲是提供跨部門的,統一資料檢視

相關文章