讀資料湖倉05資料需要的層次

躺柒發表於2024-10-03

1. 業務價值

1.1. 技術和商業在這個世界上是相互交織的

  • 1.1.1. 基礎資料在商業和技術應用中是不可或缺的

1.2. 技術的存在是為了推動商業的目標和進步,並由企業出資支援

  • 1.2.1. 當技術推動商業發展時,商業會蓬勃發展,技術也會隨之繁榮

  • 1.2.2. 當技術發展偏離這個基本模式時,它就會失去生機甚至消亡

  • 1.2.3. 在任何情況下,商業都將決定技術的最終滿意度和價值,商業是推動技術發展的關鍵

1.3. 賺錢對於企業的長期延續至關重要,它是成功的關鍵,現金流則是商業活動的生命線

1.4. 從長遠來看,所有成功的技術都在某種程度上專注於實現業務目標

  • 1.4.1. 建立和維護基礎資料是技術支援業務的最佳方式,可以根據資料基礎來做出合理的業務決策

  • 1.4.2. 為基礎資料打造堅實的基礎設施是一項複雜的任務

  • 1.4.3. 建立基礎資料為實現這些目標奠定了基礎

  • 1.4.4. 當我們在複雜的技術叢林中掙扎時,很容易忘記最終的目標是實現業務價值

1.5. 技術所有的組成部分必須協同工作

1.6. 協調不同的技術組成部分並非易事

  • 1.6.1. 技術基礎由多個技術組成部分組合而成

  • 1.6.2. 每個技術組成部分都與其他部分大不相同

  • 1.6.3. 不同的技術組成部分需要排序才能協同工作

  • 1.6.4. 不同的技術組成部分排序所需的時間框架大不相同

  • 1.6.5. 不同的技術組成部分以不同的速率工作

1.7. 領域

  • 1.7.1. 隨著技術逐漸脫離領域,單個組成部分會開始考慮構建自己獨特的技術,但也會忽視對業務價值的關注

  • 1.7.2. 技術的組成部分甚至無法與業務流程關聯,而是將所有的焦點都集中在技術的複雜性上,並非業務需求上

  • 1.7.3. 隨著技術逐漸開始建立自己的領域,支援組織業務的願景也在逐漸喪失

1.8. 每個技術的組成部分都需要聚焦於構建和輔助業務最核心的基礎資料

  • 1.8.1. 只有這樣做,才能確保組織的技術能夠真正致力於支援組織的業務

2. 資料需要的層次

2.1. 類比馬斯洛需要層次論

  • 2.1.1. 需要層次論金字塔底部的兩個層次是生存所必需的

2.2. 資料需要層次結構的5個層次,從下向上依次為資料獲取,資料傳輸與儲存,資料轉換,資料標籤、整合與匯聚,資料分析與機器學習

2.3. 具體步驟

  • 2.3.1. 只收集真正需要使用的資料

  • 2.3.2. 資料是可信的,也是可理解的

  • 2.3.3. 需要將資料儲存在既方便訪問又安全的地方

  • 2.3.4. 把資料轉換成員工和應用程式可以使用的格式

  • 2.3.5. 將儲存和轉換後的資料進行整合,以便從不同系統中獲取更全面的資料檢視

  • 2.3.6. 將資料與適當的後設資料匯聚,應用於報表和業務分析系統

  • 2.3.7. 建立能夠進行資料學習的系統,最佳化業務決策,甚至發明一些創新技術

3. 資料獲取

3.1. 資料獲取是最底層的資料需要層次,也就是第一個層次

3.2. 我們收集的資料遠遠超出所需要使用的範圍

3.3. 我們更擅長收集大量資料

3.4. 資料的來源有很多,我們可以從資料庫介面、感測器、業務系統、裝置或物聯網系統中獲取資料

3.5. 無論資料來自何處,都需要保證資料的完整性、準確性與唯一性,並且不能帶有偏見

3.6. 即使是文字資料,也應該從原始來源獲取,以避免中間轉換導致的資訊丟失

  • 3.6.1. 應該儲存文字資料對應的後設資料,以便未來進行資料溯源

3.7. 資料獲取層次的關鍵在於正確地收集和分類資料

  • 3.7.1. 資料必須是正確且可信的

4. 資料傳輸與儲存

4.1. 資料需要層次結構的第二個層次是資料傳輸與儲存

4.2. 為了確保資料傳輸的可靠性,源系統必須具備可靠的資料傳輸機制

4.3. 用於儲存結構化資料和非結構化資料的系統也必須是冗餘的,以保障資料安全,並提升檢索效率

  • 4.3.1. 儲存系統還應易於訪問

4.4. 批處理或聯機事務處理資料傳輸系統,需要配備驗證和回滾程式

4.5. 資料提取、轉換和載入過程必須符合業務需求和資料治理準則

4.6. 多年來,關係型資料庫和資料倉儲一直是結構化資料儲存與檢索的主要方式

5. 資料轉換

5.1. 資料轉換是將資料轉化為對業務決策有用的形式

5.2. 是資料需要層次結構中最困難的層級之一

5.3. 是第三個層次,它要求同時具備資料知識和業務理解

5.4. 資料轉換層次對企業來說是建立競爭優勢的關鍵,它能夠將來自多個業務系統的資料整合轉換為可用於決策支援系統、專家系統、商業智慧系統和業務分析系統的資料資源,同時,它還同資料傳輸與儲存層次密切結合

5.5. 資料轉換層次的複雜性在於其需要有效地清洗當前“非常混亂”的資料,並按照企業資料治理委員會指定的格式進行資料轉換

  • 5.5.1. 如果基礎資料不可信、儲存方式不正確,就無法與其他資料進行整合

5.6. 資料轉換層次的主要任務包括資料清洗、資料轉換、面向報表系統整理資料以及進行資料異常檢測

5.7. 資料異常檢測的目的是透過資料洞察提前檢測並修復潛在問題,避免造成嚴重的影響,從而節省資金

  • 5.7.1. 如果能夠提前檢測並修復潛在問題,防止它朝錯誤的方向發展,就能夠避免對業務的影響

6. 資料標籤、整合與匯聚

6.1. 資料需要層次結構的第四個層次是資料標籤、整合與匯聚,這個層次是業務分析和報告系統的核心

6.2. 透過整合資料以滿足應用需求,可以為決策者提供資訊和洞察力

6.3. 客觀的評價指標體系可用於評估資料整合的效果

6.4. 根據不同維度匯聚資料,形成OLAP立方體,不僅有助於發現資料的分佈趨勢與關聯性,而且有助於發現採集資料異常、資料偏差和序列特徵

6.5. 資料標籤、整合與匯聚層次的重要之處在於它能夠創造資料的價值,因為在這個層次,企業才開始真正地使用資料

6.6. 資料標籤、整合與匯聚層次提供了訪問資料的入口,其他應用都需要構建在該層次之上

  • 6.6.1. 很多企業在資料標籤、整合與匯聚層次中獲得了穩健的業務支援能力、成功的實踐以及競爭優勢

7. 資料分析與機器學習

7.1. 資料需要層次結構中的頂層是資料分析與機器學習

7.2. 該層次使用計算機演算法並利用現有資料來解釋自身

  • 7.2.1. 一旦它理解了現有資料,就可以預測新資料到來時的趨勢

  • 7.2.2. 這是機器學習的基礎,這些演算法可以對預期結果與實際結果進行試驗

  • 7.2.3. 如果我們能夠預測即將發生的情況,就可以提前制定適當的行動以應對預期的結果

7.3. 基於資料分析與機器學習層次,企業可以根據資料進行業務決策的最佳化

7.4. 正確預測並提前制定適當的行動能夠使得企業在面對競爭對手時獲得真正的資料競爭優勢

7.5. 在資料分析不斷深入發展的背景下,計算機演算法持續進步,擁有模擬人類智慧的系統開始出現

相關文章