什麼是資料倉儲?

Max_Lyu發表於2019-07-29

  這些天在實習,公司要做資料分析,要先建立資料倉儲。但是經常有人問我做什麼,我回答資料倉儲都不是特別明白是什麼東西,我也不知道應該怎麼更好的表述。因此我決定通過這篇文章好好解釋一下什麼是資料倉儲。

  按照官方解釋:資料倉儲,英文名稱為Data Warehouse,可簡寫為DW或DWH。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。(寫得挺牛逼以至於我根本理解不了)

 一、提出問題

  為了更好地理解,在這裡先提幾個問題。

  1、如果你要的資料分別存放在很多個不同的資料庫,甚至存在文字檔案,excel 中,你要如何獲取這些資料?

  2、如果你從這些資料來源中取出了你要的資料,但是發現格式不一樣,或者資料型別不一樣,你要怎麼規範?

  3、如果有一天你需要查歷史資料,但你發現這些資料被修改過的,你要怎麼辦?

  4、如果你是一個只會簡單查詢的人,你想從複雜的資料庫中獲取資料,應該怎麼辦?

  5、如果你有一個關於城市人口的資料庫,你想知道“某個鎮學歷分佈情況”,要怎麼快速高效地得知呢?

 二、解決問題

  為了解決上面幾個問題,資料倉儲就誕生了,從邏輯上理解,資料庫和資料倉儲沒有區別,都是通過資料庫軟體實現存放資料的地方,只不過從資料量來說,資料倉儲要比資料庫更龐大德多。資料倉儲主要用於資料探勘和資料分析,輔助領導做決策。

  構建資料倉儲的過程是將不同資料來源的資料整合起來,通過對資料進行清洗,規範化資料;根據需求圍繞一個主題進行構建;並且構建好的資料倉儲不用於UPDATE,僅用於查詢;構建好的資料倉儲也方便獲取資料,節省了一定的資源。

                  

三、特點

  那麼接下來資料倉儲的特點就比較容易理解了。

 1、整合性

  資料倉儲中儲存的資料是來源於多個資料來源,原始資料在不同資料來源中的儲存方式各不相同。要整合成為最終的資料集合,需要從資料來源經過一系列抽取、清洗、轉換的過程。

 2、穩定性

  資料倉儲中儲存的資料是歷史記錄,不允許被修改。使用者只能通過分析工具進行查詢和分析。

 3、動態性

  資料倉儲資料會隨時間變化而定期更新,不可更新是針對應用而言,即使用者分析處理時不更新資料。

 4、主題性

  傳統資料庫對應專案不同,資料倉儲根據需求,將不同資料來源的資料整合,所有資料都圍繞某一主題。比如“分析某個地區人口的學歷”、“企業的註冊資本”這樣類似地主題。

 

相關文章