讀資料湖倉08資料架構的演化

躺柒發表於2024-10-06

1. 資料目錄

1.1. 需要將分析基礎設施放置在資料目錄(Data Catalogue)的結構中

  • 1.1.1. 後設資料

  • 1.1.2. 資料模型

  • 1.1.3. 本體

  • 1.1.4. 分類標準

1.2. 資料目錄類似於圖書館的圖書檢索目錄

  • 1.2.1. 先透過圖書館的圖書檢索目錄進行查詢,以便快速找到所需的圖書

  • 1.2.2. 資料目錄的執行方式與此類似,它負責連線組織中的所有文件和資料庫

  • 1.2.3. 利用資料目錄在基礎資料中進行檢索,能夠節約大量的時間

1.3. 永久維護

  • 1.3.1. 資料目錄經常被忽略的一個因素是它總在變化

  • 1.3.2. 資料目錄也在不斷地被更新維護

  • 1.3.3. 持續不斷更新維護資料目錄的原因

    • 1.3.3.1. 業務環境持續變化

    • 1.3.3.2. 系統不斷變化

    • 1.3.3.3. 不斷加入新系統

1.4. 開放

  • 1.4.1. 資料目錄應該是開放的,且可供組織中的任何人分析使用,唯一例外的是那些試圖對組織發起惡意行為的人

  • 1.4.2. 管理人員

  • 1.4.3. 文員

  • 1.4.4. 日常運營人員

  • 1.4.5. 審計師

  • 1.4.6. 分析人員

1.5. 不同資料型別的內部結構

  • 1.5.1. 結構化的資料目錄可以在不同型別的資料之間產生關係

1.6. 分析工具可以用於處理資料目錄中的資料,就像它可以用於分析基礎資料中的詳細資料一樣

  • 1.6.1. 以獨立於基礎資料對資料目錄進行分析

  • 1.6.2. 與大容量儲存器不同,資料目錄是資料湖倉的必要組成部分

2. 資料架構的演化

2.1. 資料架構是多型別資料處理的核心

  • 2.1.1. 沒有資料架構,就沒有堅實的資料基礎可依賴

  • 2.1.2. 人工智慧、機器學習和資料網格只有依賴資料架構,才能在各自的環境中取得成功

2.2. 資料湖倉中的基礎資料是基於深思熟慮和精細設計的資料架構而來的

2.3. 伊始

  • 2.3.1. 應用程式只能讀取輸入,處理後並生成輸出

  • 2.3.2. 簡單的應用程式能夠在企業等組織中高效地執行重複性工作,從而為組織節省大量工作時間

2.4. 應用程式

  • 2.4.1. 發現還可以編寫更加複雜的應用程式

  • 2.4.2. 由於新的應用程式開始處理大量資料,並且生成更多的資料,因此,當時使用的儲存介質(如打孔卡片和紙帶)已經不足以儲存這些資料

2.5. 磁帶檔案

  • 2.5.1. 隨著發展,磁帶檔案成為資料儲存的主要媒介

  • 2.5.2. 相比早期媒介,磁帶檔案能夠儲存更多的資料

  • 2.5.3. 與打孔卡片相比,磁帶檔案有許多優勢,如儲存成本更低,不需要固定長度的記錄,並且可以重複使用

  • 2.5.4. 隨著磁帶檔案的出現,主檔案(Master File)的概念隨之而來

    • 2.5.4.1. 主檔案對於收集和儲存組織的主要實體(如客戶、產品和運輸)的相關資料非常有用,它的理念是將相關資訊集中儲存在一個地方
  • 2.5.5. 磁帶檔案可以更有效地儲存資料,但是在使用磁帶檔案時,要想訪問單條記錄,則必須讀取整個檔案

    • 2.5.5.1. 導致長時間的低效處理
  • 2.5.6. 雖然磁帶檔案解決了打孔卡片的眾多問題,但也引入了一系列新的挑戰

  • 2.5.7. 磁帶檔案也不能長時間儲存資料

    • 2.5.7.1. 當磁帶檔案儲存一段時間後,磁帶檔案上的氧化物會磨損而導致檔案損壞,進而變得毫無價值

2.6. 硬碟儲存

  • 2.6.1. 隨著硬碟儲存系統的出現,我們能夠更加便捷地電子化儲存和訪問資料

  • 2.6.2. 資料庫管理系統應運而生,負責管理這些資料

  • 2.6.3. 隨著時間的推移,硬碟儲存的生產成本逐步降低,最終變得經濟實惠

  • 2.6.4. 硬碟儲存帶來的一項創新功能是可以便捷地直接存取資料,而不需要遍歷整個檔案

2.7. OLTP

  • 2.7.1. 由於資料能夠快速存取,因此出現了一種被稱為聯機事務處理(OLTP)的技術

  • 2.7.2. OLTP使得計算機成為組織日常業務處理的重要組成部分

  • 2.7.3. OLTP將計算機的角色從僅處理後臺任務提升到直接與客戶進行介面互動

  • 2.7.4. 當計算機不可用或響應速度變慢時,業務將會受到影響

  • 2.7.5. OLTP應用程式會盡可能快地丟棄資料以保持響應速度

  • 2.7.6. 在歷史資料變得愈發重要時,OLTP中卻沒有適合儲存歷史資料的位置

2.8. 個人計算機

  • 2.8.1. 個人計算機變得非常受歡迎。它的價格低廉,輕量便攜,甚至可以隨身攜帶

  • 2.8.2. 個人計算機為那些從未接觸過計算機技術的人群開啟了學習計算機的大門

  • 2.8.3. 個人計算機賦予終端使用者更多自主權

  • 2.8.4. 多年來,IT部門一直是決定構建哪些應用程式以及允許哪些計算機能夠被訪問的唯一決策機構

  • 2.8.5. 隨著個人計算機的進一步普及,IT部門逐漸失去計算機的控制權

2.9. 4GL處理技術和資料抽取應用程式

  • 2.9.1. 4GL(Fourth Generation Language,第四代程式語言)處理的技術應運而生

  • 2.9.2. 4GL處理技術使終端使用者不再需要依賴IT部門來進行處理和程式設計

  • 2.9.3. 資料抽取應用程式在不同應用程式之間遷移和傳遞資料方面扮演重要角色

  • 2.9.4. 資料抽取應用程式與眾多應用程式的結合導致了資料的不一致性問題

    • 2.9.4.1. 現在面臨的挑戰不再是找不到資料,而是要找到可信的資料
  • 2.9.5. 資料的不一致性問題是一個架構問題,而非技術問題

    • 2.9.5.1. 增加更多技術只會讓問題變得更糟,而不是更好
  • 2.9.6. 從應用程式生成的資料到企業資料的轉換並不是唯一的問題

  • 2.9.7. 長時間儲存資料變得相當必要

    • 2.9.7.1. 在資料倉儲應用程式出現之前,事務處理僅能夠儲存較短時間的資料,通常為幾周到一個月

    • 2.9.7.2. 如果應用程式資料儲存時間較長,那麼事務響應速度會受到影響

    • 2.9.7.3. 人們發現將資料儲存時間延長超過幾周是有價值的

      2.9.7.3.1. 歷史資料有助於我們發現和分析消費者的消費習慣

2.10. 資料倉儲

  • 2.10.1. 提供企業資料檢視

  • 2.10.2. 可用於分析即時可用的資料

  • 2.10.3. 可透過多種方式重塑粒度資料

  • 2.10.4. 可以將歷史資料用於長期分析

  • 2.10.5. 資料倉儲的架構持續了相當長的時間,至今仍在使用

2.11. 資料集市

  • 2.11.1. 為了滿足對特定領域中資料使用的需求,一種被稱為資料集市的架構出現

  • 2.11.2. 資料集市使用資料倉儲中已有的粒度資料,並將其重塑為終端使用者需求的形式和結構

  • 2.11.3. 透過資料集市,不同部門能夠獲取一致的資料,因為它們所看到的資料來源是相同的,那就是資料倉儲

2.12. ⑩網際網路和物聯網資料

  • 2.12.1. 網際網路還提供了大量來自世界各地的資料

2.13. ⑾資料湖

  • 2.13.1. 在技術和資料的競合過程中出現了一種資料架構——資料湖

  • 2.13.2. 資料湖就會變成資料沼澤,或者也可以稱為資料臭水溝

  • 2.13.3. 由於資料湖中的資料是未整合的,因此人們不清楚很多資料的內容

  • 2.13.4. 資料湖巨大無比,這導致人們難以找到他們想要的具體資料

  • 2.13.5. 資料湖中的資料沒有進行任何整合,人們沒有辦法將其中一種型別的資料與其他型別的資料進行合理關聯

  • 2.13.6. 由於資料形式非常混亂,人們無法有效地連線多個資料元素

2.14. ⑿資料湖倉

  • 2.14.1. 在資料湖混亂的背景下,資料湖倉誕生

  • 2.14.2. 資料湖倉為資料湖新增了功能——分析基礎設施,並在將資料存入資料湖倉之前進行整合

  • 2.14.3. 資料湖倉成為一個可行的資料架構,能夠滿足組織的分析需求

  • 2.14.4. 前資料湖倉是一個成熟的架構,可以滿足需求

  • 2.14.5. 未來肯定還會出現架構增強的資料湖倉,以及與資料湖倉不同的形式,以支援新的需求

相關文章