[雪峰磁針石部落格]資料倉儲快速入門教程1簡介
資料倉儲是從各種渠道收集和管理資料的技術,可提供有意義的業務洞察,戰略性地使用資料。
它用於查詢和分析而不是事務處理,是將資料轉換為資訊並及時向使用者提供的過程。
決策支援資料庫(資料倉儲)與組織的運營資料庫分開維護。 但是資料倉儲不是產品,而是環境。 它是屬於資訊系統,向使用者傳統運營資料儲存難以訪問或展示的當前和歷史決策支援資訊。
資料倉儲是BI系統的核心,BI是為資料分析和報告而構建的。
你們很多人都知道,3NF設計的庫存系統資料庫很多都有相互關聯的表。 例如,有關當前庫存資訊的報告可包含超過12個連線條件,查詢慢。 資料倉儲提供了一種新設計,可以縮短響應時間,提高報表和分析查詢的效能。
資料倉儲系統的其他名稱:
- 決策支援系統(DSS Decision Support System)
- 執行資訊系統(Executive Information System)
- 管理資訊系統(Management Information System)
- 商業智慧解決方案(Management Information System)
- 分析應用(Analytic Application)
- 資料倉儲(Data Warehouse)
資料倉儲的歷史
資料倉儲使使用者能夠理解並提高其組織的績效。 隨著計算機系統變得越來越複雜並需要處理越來越多的資訊,倉庫資料的需求也在不斷變化。
- 1960年 – Dartmouth和General Mills在一個聯合研究專案中,提出了維度概念。
- 1970 – Nielsen和IR為零售引入了維度資料。
- 1983- Tera推出了專為決策支援而設計的資料庫管理系統
- 資料倉儲始於20世紀80年代後期,當時IBM工作人員Paul Murphy和Barry Devlin開發了業務資料倉儲。
- 然而,真正的概念是由Inmon Bill提出的。 他是資料倉儲之父。 他撰寫了關於倉庫和公司資訊工廠的建設,使用和維護的各種主題。
Datawarehouse如何運作?
資料倉儲作為中央儲存庫,資訊從一個或多個資料來源到達。 資料從事務系統和其他關聯式資料庫流入資料倉儲。
資料可能是:
- 結構化的
- 半結構化
- 非結構化資料
處理,轉換和提取資料,以便使用者可以通過商業智慧工具,SQL客戶端和電子表格訪問資料倉儲中的已處理資料。 資料倉儲將來自不同來源的資訊合併到綜合資料庫中。
通過合併所有這些資訊,組織可以更全面地分析其客戶。 這有助於確保它已考慮所有可用資訊。 資料倉儲使資料探勘成為可能。 資料探勘旨在尋找可能導致更高銷售額和利潤的資料模式。
資料倉儲的型別
1.企業資料倉儲:
企業資料倉儲是一個集中式倉庫。 它為整個企業提供決策支援服務。 它提供了統一的方法來組織和表示資料。 它還提供根據主題對資料進行分類並根據這些劃分進行訪問的能力。
2.運營資料儲存:
只需要資料儲存的運營資料儲存(也稱為ODS)。 在ODS中,資料倉儲實時重新整理。 因此,它廣泛地用於諸如儲存僱員記錄等。
3.資料集市:
資料集市是資料倉儲的子集。 它專門針對特定業務部門而設計,例如銷售,財務,銷售或財務。 在獨立的資料集市中,資料可以直接從源收集。
資料倉儲的一般階段
離線運算元據庫:
在此階段,資料只是從運營系統複製到伺服器。
離線資料倉儲:
資料倉儲中的資料定期從運營資料庫更新。 資料倉儲中的資料經過對映和轉換,以滿足資料倉儲的目標。
實時資料倉儲:
運營資料庫中發生任何事務,就會更新資料倉儲。 例如,航空公司或鐵路預訂系統。
整合資料倉儲:
運營系統執行事務時,資料倉儲會不斷更新。 然後,Datawarehouse生成傳遞迴運營系統的事務。
資料倉儲的元件
資料倉儲的四個組成部分是:
載入管理器:載入管理器也稱為前端元件。 它執行與提取和載入資料到倉庫相關的所有操作。 這些操作包括轉換準備用於進入資料倉儲的資料。
倉庫管理:倉庫管理執行與倉庫中資料管理相關的操作。 它執行資料分析等操作,以確保一致性,索引和檢視的建立,非規範化和聚合的生成,源資料的轉換和合並以及歸檔和備份資料。
查詢管理器:查詢管理器 也被稱為後端元件。 它執行與使用者查詢管理相關的所有操作操作。 此資料倉儲元件的操作是對相應表的直接查詢。
終端使用者訪問工具:
這分為五個不同的組,如1.資料包告 2.查詢工具 3.應用程式開發工具 4. EIS工具 5.OLAP工具和資料探勘工具。
參考資料
- python測試開發專案實戰-目錄
- python工具書籍下載-持續更新
- python 3.7極速入門教程 – 目錄
- 原文地址
- 本文涉及的python測試開發庫 謝謝點贊!
- [本文相關海量書籍下載](https://github.com/china-testing/python-api-tesing/blob/master/books.md
- http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html
誰需要資料倉儲?
- 依賴大資料的決策者
- 使用自定義複雜流程從多個資料來源獲取資訊的使用者。
航空公司:
在航空公司系統中,它用於職員分配,路線盈利能力分析,旅客計劃促銷等。
銀行業:
管理可用的資源。 一些銀行也用於市場調查,產品和運營的績效分析。
衛生保健:
醫療保健行業還使用資料倉儲來制定戰略並預測結果,生成患者的治療報告,與保險公司等共享資料,醫療援助服務等。
公共部門:
在公共部門,資料倉儲用於情報收集。 它有助於政府機構維護和分析每個人的稅務記錄,健康政策記錄。
投資和保險業:
分析資料模式,客戶趨勢以及跟蹤市場變動。
零售:
在零售連鎖店中,資料倉儲廣泛用於分銷和營銷。 它還有助於跟蹤專案,客戶購買模式,促銷以及用於確定定價政策。
電信:
產品促銷,銷售決策和制定分銷決策。
酒店業:
設計和估計他們希望根據客戶的反饋和旅行模式定位客戶的廣告和促銷活動。
實施資料倉儲的步驟
- 企業戰略 :在此我們確定技術,包括當前的架構和工具。 我們還確定事實,維度和屬性。 還傳遞了資料對映和轉換。
- 分階段交付 :應根據主題領域分階段實施資料倉儲。 應首先實施預訂和計費等相關業務實體,然後相互整合。
- 迭代原型 :資料倉儲應該迭代開發和測試。
這裡是Datawarehouse實施的關鍵步驟及其可交付成果。
實施資料倉儲的最佳實踐
- 確定計劃以測試資料的一致性,準確性和完整性。
- 資料倉儲必須很好地整合,定義良好並帶有時間戳。
- 在設計Datawarehouse時,請確保使用正確的工具,堅持生命週期,注意資料衝突並準備好從錯誤中學習。
- 切勿更換運營系統和報告
- 不要在提取,清理和載入資料上花費太多時間。
- 確保所有利益相關者(包括業務人員)參與資料倉儲實施流程。 確定資料倉儲是聯合/團隊專案。 您不希望建立對終端使用者無用的資料倉儲。
- 為終端使用者準備培訓計劃。
為什麼我們需要資料倉儲? 優點缺點
資料倉儲的優點:
- 資料倉儲允許業務使用者快速訪問來自某些來源的關鍵資料。
- 資料倉儲提供有關各種跨職能活動的一致資訊。 它還支援臨時報告和查詢。
- 資料倉儲有助於整合許多資料來源,以減少生產系統的壓力。
- 資料倉儲有助於縮短分析和報告的總週轉時間。
- 重組和整合使使用者更容易用於報告和分析。
- 資料倉儲允許使用者訪問多個源關鍵資料。 因此,它節省了使用者從多個源檢索資料的時間。
- 資料倉儲儲存大量歷史資料。 這有助於使用者分析不同的時間段和趨勢,以便進行未來的預測。
資料倉儲的缺點:
- 不是非結構化資料的理想選擇。
- 資料倉儲的建立和實施肯定會有時間混亂。
- 資料倉儲很容易過時
- 難以對資料型別和範圍,資料來源架構,索引和查詢進行更改。
- 資料倉儲看起來很簡單,但實際上,對於普通使用者來說,它太複雜了。
- 儘管在專案管理方面做出了最大努力,但資料倉儲專案範圍仍將不斷增加。
- 有時倉庫使用者會制定不同的業務規則。
- 組織需要將大量資源用於培訓和實施目的。
資料倉儲的未來
- 監管約束的變化可能會限制組合不同資料來源的能力。 這些不同的來源可能包括難以儲存的非結構化資料。
- 隨著資料庫規模的增長,對構成非常大的資料庫的估計值繼續增長。 構建和執行資料倉儲系統非常複雜,而且資料倉儲系統的規模也在不斷擴大。 目前可用的硬體和軟體資源不允許線上儲存大量資料。
- 多媒體資料檢索問題。
資料倉儲工具
市場上有許多資料倉儲工具。 這裡有一些最突出的:
1.MarkLogic:
MarkLogic使用一系列企業功能使資料整合更容易,更快捷。 此工具有助於執行非常複雜的搜尋操作。 它可以查詢不同型別的資料,如文件,關係和後設資料。
http://developer.marklogic.com/products
甲骨文:
Oracle是業界領先的資料庫。 它為內部部署和雲端提供了廣泛的資料倉儲解決方案選擇。 它有助於通過提高運營效率來優化客戶體驗。
https://www.oracle.com/index.html
3.亞馬遜RedShift:
它使用標準SQL和現有BI工具分析所有型別資料的簡單且經濟高效的工具。 它還允許使用查詢優化技術執行鍼對數PB的結構化資料的複雜查詢。
https://aws.amazon.com/redshift/?nc2=h_m1
相關文章
- [雪峰磁針石部落格]Bokeh資料視覺化工具1快速入門視覺化
- [雪峰磁針石部落格]資料分析工具pandas快速入門教程4-資料匯聚
- [雪峰磁針石部落格]滲透測試簡介1滲透測試簡介
- [雪峰磁針石部落格]python爬蟲cookbook1爬蟲入門Python爬蟲
- [雪峰磁針石部落格]python應用效能監控工具簡介Python
- [雪峰磁針石部落格]python計算機視覺深度學習1簡介Python計算機視覺深度學習
- [雪峰磁針石部落格]大資料Hadoop工具python教程9-Luigi工作流大資料HadoopPythonUI
- [雪峰磁針石部落格]介面測試面試題面試題
- [雪峰磁針石部落格]tesseractOCR識別工具及pytesseract
- [雪峰磁針石部落格]2019-Python最佳資料科學工具庫Python資料科學
- [雪峰磁針石部落格]multi-mechanize效能測試工具
- [雪峰磁針石部落格]計算機視覺opcencv工具深度學習快速實戰2opencv快速入門計算機視覺深度學習OpenCV
- [雪峰磁針石部落格]2018最佳ssh免費登陸工具
- [雪峰磁針石部落格]2018最佳python編輯器和IDEPythonIDE
- [雪峰磁針石部落格]pythontkinter圖形工具樣式作業Python
- [雪峰磁針石部落格]python3.7極速入門教程1安裝:Linux(Ubuntu18.04)及Windows上安裝AnacondaPythonLinuxUbuntuWindows
- [雪峰磁針石部落格]python標準模組介紹-string:文字常量和模板Python
- [雪峰磁針石部落格]pythonGUI工具書籍下載-持續更新PythonNGUI
- [雪峰磁針石部落格]可愛的python測試開發庫Python
- [雪峰磁針石部落格]python庫介紹-argparse:命令列選項及引數解析Python命令列
- [雪峰磁針石部落格]flask構建自動化測試平臺1-helloFlask
- [雪峰磁針石部落格]計算機視覺opcencv工具深度學習快速實戰1人臉識別計算機視覺深度學習
- [雪峰磁針石部落格]軟體測試專家工具包1web測試Web
- [雪峰磁針石部落格]使用jython進行dubbo介面及ngrinder效能測試
- [雪峰磁針石部落格]python包管理工具:Conda和pip比較Python
- [雪峰磁針石部落格]軟體自動化測試初學者忠告
- [雪峰磁針石部落格]pythonGUI作業:tkinter控制元件改變背景色PythonNGUI控制元件
- [雪峰磁針石部落格]python計算機視覺深度學習2影像基礎Python計算機視覺深度學習
- [雪峰磁針石部落格]flask構建自動化測試平臺3-模板Flask
- [雪峰磁針石部落格]web開發工具flask中文英文書籍下載-持續更新WebFlask
- [雪峰磁針石部落格]使用python3和flask構建RESTfulAPI(介面測試服務)PythonFlaskRESTAPI
- [雪峰磁針石部落格]flask構建自動化測試平臺7-新增google地圖FlaskGo地圖
- [雪峰磁針石部落格]pythonopencv3例項(物件識別和擴增實境)1-影像幾何轉換PythonOpenCV物件
- [雪峰磁針石部落格]python網路作業:使用python的socket庫實現ICMP協議的pingPython協議
- GraphQL 快速入門【1】簡介
- [雪峰磁針石部落格]selenium自動化測試工具python筆試面試專案實戰5鍵盤操作Python筆試面試
- [雪峰磁針石部落格]python人工智慧作業:Windows使用SAPI和tkinter用不到40行實現文字轉語音工具Python人工智慧WindowsAPI
- [雪峰磁針石部落格]Python經典面試題:用3種方法實現堆疊和佇列並示例實際應用場景Python面試題佇列