讀資料湖倉06資料整合

躺柒發表於2024-10-04

1. 資料湖倉中的資料整合

1.1. 資料湖倉的總體目標是為每一個人提供支援,包括從普通職員到CEO

1.2. 有了作為基礎設施的基礎資料,企業等組織才能實現真正的資料驅動

1.3. 提供組織所需的資料,最關鍵的一環在於提供整合的資料基礎

  • 1.3.1. 只將資料扔進資料湖倉就指望它能滿足人們的需求是不現實的

  • 1.3.2. 如果將資料丟進資料湖倉而不對其進行整合,將會浪費時間、金錢和機會

1.4. 資料整合是構建組織決策基礎的必要條件

2. 自動整合

2.1. 對於應用程式生成的結構化資料,可以運用ETL

2.2. 對於文字資料,可以運用文字ETL

2.3. 對於模擬/物聯網資料,則可以運用資料蒸餾演算法

2.4. 這些技術都能以成熟和自動化的方式支援整合需求

2.5. 資料整合的最終結果是資料本身的轉換

  • 2.5.1. 基礎資料包含轉換過的資料

2.6. 轉換資料的有趣之處在於不同型別資料的轉換過程完全不同

2.7. ETL、文字ETL和資料蒸餾演算法的處理過程之間幾乎沒有共同點

3. ETL

3.1. ETL是對應用程式生成的結構化資料進行轉換的過程

3.2. 只有整合基於應用程式與基於交易的資料,才能夠真正理解企業所開展的業務

3.3. 命名約定

3.4. 編碼習慣

3.5. 物理特性差異

3.6. 屬性度量

3.7. 屬性度量

3.8. 屬性存在標準

3.9. 粒度差異

3.10. 定義差異

3.11. 資料選擇標準

3.12. 歸納和推導差異

4. 文字ETL

4.1. 結構化資料主要來自交易

4.2. 文字資料則主要來自語音對話和報告

  • 4.2.1. 可能來自印刷資料,例如報紙、文件和廣告冊

  • 4.2.2. 可能來自網際網路、電子郵件和其他電子形式的資料

4.3. 兩者的資料來源存在顯著差異

4.4. 文字資料是以自由格式呈現的

4.5. 事務資料每次出現時都清晰明瞭

4.6. 描述文字資料所涵蓋的本體

4.7. 本體內的分類標準

4.8. 分類標準和業務規則的聯絡

4.9. 基於詞與詞之間的相近程度識別語義

4.10. 多義詞辨識

4.11. 對選定資料去標識化的能力

4.12. 識別常用措辭的能力

4.13. 多語言環境下運轉的能力

4.14. 識別文字中情感的能力

5. 資料蒸餾演算法

5.1. 模擬/物聯網資料整合的本質是刪除基礎資料中訪問機率較低的資料

5.2. 無法儲存生成的所有模擬/物聯網資料,尤其是訪問機率較低的資料

5.3. 為了從訪問機率低的非相關資料中分離出訪問機率高的相關資料,需要首先使用資料蒸餾演算法對原始模擬/物聯網資料進行蒸餾處理,然後把訪問機率較高的資料置於基礎資料中

5.4. 蒸餾演算法

5.5. 演算法隨時間推移發生的變化

5.6. 閾值選擇

5.7. 閾值隨時間推移發生的變化

5.8. 記錄度量的時間

5.9. 度量的時間隨時間推移發生的變化

6. 分析

6.1. 構建資料湖倉的基礎資料的主要目的是支援分析處理

  • 6.1.1. 基礎資料主要用於支援分析處理,但有時也會應用在運營中

6.2. 結構化資料分析

  • 6.2.1. 我們需要確保所分析的是完整的結構化資料,這樣組織才能夠在整個組織範圍內進行分析處理

  • 6.2.2. 將未整合的應用程式生成的資料存入基礎資料中是錯誤的

6.3. 文字資料分析

  • 6.3.1. 使用基礎資料進行分析處理還有一種方式,那就是進行文字資料分析

  • 6.3.2. 直接將原始文字資料儲存在基礎資料中都不是一個明智的策略

  • 6.3.3. 如果基礎資料中有了分析文字資料所需的基礎,就可以開展各類分析工作

  • 6.3.4. 文字資料分析的一個典型應用場景是瞭解客戶的情緒狀況

  • 6.3.5. 文字資料分析還可用於相關性分析

    • 6.3.5.1. 在相關性分析中,分析的物件是多個同時生成的變數

6.4. 模擬/物聯網資料分析

  • 6.4.1. 模擬/物聯網資料分析能夠展示資料的整體情況或者單條/多條記錄的分析結果

6.5. 結構化資料和文字資料的結合

  • 6.5.1. 將結構化資料和文字資料結合起來進行分析

  • 6.5.2. 當結構化資料與文字資料合併時,一張完整且精確的客戶畫像便呈現了出來

  • 6.5.3. 透過對客戶的洞察能夠使廠商改進產品和服務,獲得增加新客的機會

  • 6.5.4. 進行客戶360度全景分析、客戶趨勢分析和店鋪滿意度分析等

  • 6.5.5. 難點在於結構化資料的操作是基於鍵、屬性和索引進行的,而我們通常說話或寫作的方式並不符合這種結構

  • 6.5.6. 當無法在結構化資料和文字資料之間建立連線時,要想同時分析這兩種資料將非常困難,甚至是不可能的

6.6. 連線3個環境

  • 6.6.1. 在3個環境之間建立連線也是有可能的

  • 6.6.2. 不同環境之間的連線通常都屬於弱連線,這種弱連線會限制很多重要的分析處理工作的開展

6.7. 3種方式分析和處理基礎資料

  • 6.7.1. 透過儀表盤

    • 6.7.1.1. 儀表盤適用於展示靜態資料和明確定義的資料,也適用於那些資料結構以及與其他資料的關係不經常變化的場景

    • 6.7.1.2. 對於那些動態變化的資料與資料關係經常變化的場景,則不宜透過儀表盤來展現

    • 6.7.1.3. 儀表盤適合用於展示彙總資料,不適合呈現個體資料

    • 6.7.1.4. 最吸引人的地方在於能夠將資料視覺化

      6.7.1.4.1. 通常,高層管理者都對酷炫的視覺化效果青睞有加

  • 6.7.2. 透過知識圖譜

    • 6.7.2.1. 知識圖譜適用於展示動態資料,其中資料元素之間的關係也會不斷變化,它能夠幫助關聯不同型別的資料

    • 6.7.2.2. 知識圖譜還適用於展示詳細資料,但並不適用於彙總資料

  • 6.7.3. 透過電子表格

    • 6.7.3.1. 巨大價值在於即時性和極強的靈活性

    • 6.7.3.2. 任何使用者都可以開啟電子表格工具,處理各種型別的資料,並直接錄入資料

    • 6.7.3.3. 無法保證資料的完整性,也無法判斷其中的某個資料是否準確可信

    • 6.7.3.4. 由於任何人都可以在電子表格中輸入任何值,因此難免讓大家懷疑其中的資料的可信度

6.8. 只要基於可靠的基礎資料,資料分析的結果便是可信的

7. 軟資料

7.1. 資料湖倉中基礎資料的本質應該是可信的

  • 7.1.1. 如果基礎資料不可信,就不應該把這些資料存入資料湖倉中

  • 7.1.2. 當人們訪問基礎資料時,必須相信檢索到的資料是準確和完整的

7.2. 當我們提到結構化資料、文字資料和模擬/物聯網資料時,通常不會對資料的真實性產生疑問

  • 7.2.1. 這種資料被稱為“硬”資料

7.3. 軟資料是指來自電子表格、網際網路或政府的資料

7.4. 軟資料的問題在於其準確性和真實性

7.5. 軟資料與基礎資料中的“硬”資料存在差異

7.6. 軟資料是否應該存入基礎資料呢?

  • 7.6.1. 取決於軟資料的可信度,同時我們還要考慮是否可以將軟資料與已經確定和審查過的資料結合起來

  • 7.6.2. 必須確保軟資料的有效性,如果軟資料不符合有效性要求,則不應將其存入基礎資料

7.7. 從所有軟資料來源的角度來看,在將資料存入基礎資料之前,需要對資料進行確認,以瞭解資料的可信度

8. 電子表格資料

8.1. 軟資料的第一個資料來源是電子表格

8.2. 在基礎資料中存入電子表格資料會受到許多嚴格的限制

8.3. 最大的問題是資料來源的不確定性

  • 8.3.1. 我們無法確定電子表格中的資料是否真實可靠

  • 8.3.2. 由於任何人都可以在電子表格中填寫任何內容,因此,我們必須先考慮電子表格資料的可信度

  • 8.3.3. 如果電子表格中的資料不可信,就不應該將其存入基礎資料中

8.4. 電子表格中的資料沒有可用或可靠的後設資料

8.5. 只能從電子表格中獲取文字資料,但即便如此,也必須確保文字資料能夠體現上下文情境

9. 網際網路資料

9.1. 軟資料的第二個豐富的資料來源是網際網路

9.2. 只要資料經過認證和驗證,我們就可以將網際網路資料存入基礎資料中

9.3. 有些網站不希望人們從他們的網站獲取資料

9.4. 從網際網路上獲取資料導致的隱私問題並不常見

  • 9.4.1. 由於在網際網路上釋出的資料大多屬於公共領域,因此通常不涉及隱私問題

9.5. 在大部分情況下,在網際網路上獲取的資料基本都是一次性的,雖然資料有可能會不斷更新,但是總體而言這種機率是比較低的

10. 政府資料

10.1. 軟資料的第三個可能的資料來源是政府

10.2. 政府會發布大量可能有用的資料

  • 10.2.1. 利率

  • 10.2.2. 人口數量

  • 10.2.3. 通貨膨脹率

  • 10.2.4. 就業率

10.3. 可以把政府公佈的資料存入基礎資料

相關文章