讀資料湖倉01讓資料可信

躺柒發表於2024-09-27

1. 讓資料可信

1.1. 每個終端使用者(End User)都有一個共同的需求:訪問想要的資料

1.2. 真的能夠相信我正在訪問的這些資料嗎?

  • 1.2.1. 終端使用者很快就會發現,訪問資料和相信正在訪問的資料是兩回事

  • 1.2.2. 訪問資料和相信資料不是同一回事

  • 1.2.3. 如果資料不可信,可能會導致決策和判斷出現嚴重錯誤

1.3. 在訪問計算機系統時,終端使用者必須進行一個隱含的步驟,即從僅僅想要訪問資料轉變為想要訪問可信的資料

1.4. 獲取這些資料並不是最緊要的,理解所聽到的資料才是問題的關鍵

  • 1.4.1. 根據不可靠或不完全合格的資訊做出決策是非常危險的

  • 1.4.2. 要做出一個良好的決策,不僅要關注資料,還要獲得可信資料的支援

1.5. 不斷攀升的可信目標

  • 1.5.1. 特定目標

  • 1.5.2. 不斷攀升的目標

  • 1.5.2.1. 對資料可信度的追求是不斷攀升的

  • 1.5.2.2. 提高資料的可信度是一個無止境的過程

1.6. 資料的可信度是技術世界所依賴的基礎

1.7. 如果資料不可信,世界就會受制於“垃圾進,垃圾出”(Garbage In, Garbage Out,GIGO)

2. 可信資料的要素

2.1. 簡單的資料準確性

2.2. 資料的來源

2.3. 企業等組織首次採集資料的時間

2.4. 所有的資料轉換情況

2.5. 是否進行了資料稽核與編輯

2.6. 資料是否完整

2.7. 是否有能證實現有資料的其他資料

2.8. 資料的上下文情境

2.9. 資料採集和資料血緣的責任方

2.10. 採集資料的地點

2.11. 與資料相關的後設資料及其上下文情境

2.12. 對資料進行的更改

2.13. 新增和附加到資料上的內容

3. 基礎資料

3.1. 人工智慧、機器學習和資料網格(Data Mesh)等複雜且精尖的技術的執行都依賴於資料

3.2. 人工智慧、機器學習和資料網格技術的“基石”是資料

  • 3.2.1. 僅僅依賴這些技術直接訪問資料是不夠的,還要保證它們所訪問的資料必須是可信的

  • 3.2.2. 如果被訪問的資料本身就不可信,那麼無論這些技術多麼先進,它們向使用者提供的結果也是不正確的或者具有誤導性

3.3. 如果人工智慧被輸入和使用的資料是不正確的,那麼它幾乎無法修正資料

3.4. 只有在穩定、可訪問和可信的資料基礎上執行,應用程式才可能成功

  • 3.4.1. 如果應用程式依賴的是令人難以置信的資料,那麼它肯定會失敗

3.5. 如果能正確建立可信的資料基礎,將為成功應用資料奠定堅實的基礎,而且只要構建得當,資料湖倉完全可以滿足大眾的需求

4. 基礎資料的組成要素

4.1. 準確性

  • 4.1.1. 準確性是可信資料最基本的要素,如果資料不準確,它就沒有用處

4.2. 完整性

  • 4.2.1. 支撐應用程式的資料必須儘可能完整

4.3. 時效性

  • 4.3.1. 當分析人員檢視資料時,他們會假設正在使用的資料是最新版本的,而檢視過時的資料可能會誤導他們

4.4. 可訪問性

  • 4.4.1. 資料必須可訪問,而且有些資料訪問時間必須精確到秒級,有些資料的可訪問性引數則更為寬鬆

4.5. 易整合性

  • 4.5.1. 資料必須能夠與其他資料相匹配,同時還要求能夠與其他資料進行有意義的整合

  • 4.5.2. 資料的可整合度有多種級別,大多數資料都可以與其他資料整合,但有些資料卻無法與其他資料整合

  • 4.5.3. 資料整合的能力對資料的有用性和可信度至關重要

4.6. 可塑性

  • 4.6.1. 要想發揮其作用,就需要它能夠被塑造

5. 資料湖倉的特性

5.1. 粒度

  • 5.1.1. 粒度資料可以透過多種方式進行檢驗,資料粒度越小,資料的價值就越低

5.2. 後設資料增強

  • 5.2.1. 原始資料幾乎是無用的,終端使用者需要獲取後設資料來明確應該分析的內容

5.3. 文件化

  • 5.3.1. 除了後設資料,文件完備的資料也要保證清晰和簡潔

5.4. 多樣性

  • 5.4.1. 基礎資料服務於各種各樣的資料型別和資料結構

6. 避免不良資料

6.1. 大多數情況下,資料變差會發生在我們第一次將資料錄入系統時

  • 6.1.1. 確保正確錄入資料對於保障資料的質量至關重要

  • 6.1.2. 不相容問題也可能使資料變差

  • 6.1.3. 缺乏相應文件也可能對資料質量造成非常不利的影響

  • 6.1.4. 我們需要在第一次獲取資料時就記錄資料資訊

6.2. 結構化資料(Structured Data)和非結構化資料(Unstructured Data)都可能存在資料質量問題

  • 6.2.1. 無論是結構化資料還是非結構化資料,當大量資料輸入資料庫時,實時確保資料的質量至關重要

6.3. 資料質量常常被視為一種無法控制的因素

  • 6.3.1. 透過分析輸入錯誤、鍵的問題、重複記錄、拼寫錯誤、相容性以及確保完成良好的文件編制工作,就可以最大限度減少資料錯誤,防止形成不良的資料資產

  • 6.3.2. 資料質量是資料團隊獲得成功的核心指標

6.4. 資料質量的評估標準包括準確性、完整性、可靠性、關聯性和時效性

  • 6.4.1. 準確性指的是這些資料的有效性和價值

  • 6.4.2. 完整性指的是資料中是否存在缺失的情況

  • 6.4.3. 可靠性指的是我們是否可以信任這些資料

  • 6.4.4. 關聯性指的是資料對業務需求的適用性

  • 6.4.5. 時效性指的是資料作為最新決策依據的能力

7. 輸入錯誤

7.1. 輸入錯誤常常是在將資料錄入系統時人為造成的,或是因為文件本身就存在錯誤

7.2. 文件本身的錯誤可能是轉錄或手寫錯誤所導致的

  • 7.2.1. 安排專人檢查輸入的資料也可以最大限度地減少書寫產生的錯誤

7.3. 在進行資料轉錄時,我們必須為稽核資料分配時間,儘可能確保轉錄的資料與原始資料一致且可靠

  • 7.3.1. 欄位中指定資料型別可以有效避免輸入錯誤

7.4. 輸入掩碼(Input Mask)

  • 7.4.1. 提前設定待錄入欄位的資料格式也可以避免輸入錯誤

  • 7.4.2. 規定了輸入資料的不同格式,能夠提醒輸入資料的人注意輸入資料的特定格式要求,以避免錯誤

8. 鍵的問題

8.1. 通常在插入資料時需要進行額外的檢查,以避免新輸入的資料與系統中已存在的資料發生衝突,這種衝突可能導致資料整合錯誤

8.2. 鍵的非相容性問題主要發生在將資料錄入系統時,可能出現主鍵重複或在唯一識別符號欄位輸入重複主鍵的情況,因為資料庫不允許重複的主鍵欄位,所以會導致輸入錯誤

9. 重複記錄

9.1. 當資料從一個系統傳輸到另一個系統時,往往會出現重複記錄或多次新增相同資訊的情況,而且重複也不侷限於主鍵的重複

9.2. 若無法確定最可靠的資料,可能會導致你對已有的資料失去信心

10. 拼寫錯誤

10.1. 拼寫錯誤是整合資料時的常見問題之一

10.2. 當面臨類似問題時,我們很難確定哪些資料是正確的

10.3. 可疑的、待定的資料可能會增加風險,特別是當資料存在明顯差異或比較可疑時

10.4. 由於在資料整合過程中需要人工參與評判資料的正確性,這一步驟會降低整個系統輸入資料的速度,因此,確保資料符合規定的格式和特定的資料型別可以有效減少拼寫錯誤

11. 相容性

11.1. 各種非相容性問題都可能導致資料質量較低,包括上下文情境的非相容性、蒸餾(Distillation)方法的非相容性以及語言的非相容性等

11.2. 上下文情境的非相容性問題可能出現在多資料來源的資料整合過程中

11.3. 上下文情境資料是指與當前場景相關的事實資訊

11.4. 蒸餾方法的非相容性也是一個問題

  • 11.4.1. 蒸餾是將一個較大的模型壓縮成一個可以模擬真實世界的較小模型的過程

  • 11.4.2. 通常可以透過離線蒸餾(Offline Distillation)、線上蒸餾(Online Distillation)或自蒸餾(Self-Distillation)這3種模式來訓練較小的模型

  • 11.4.3. 在最常見的離線蒸餾中,我們可以使用小型神經網路模型進行訓練

  • 11.4.3.1. 神經網路模型能夠模擬大腦中的神經元,並利用預處理的樣本進行訓練

  • 11.4.4. 與離線蒸餾不同,線上蒸餾(也稱為平行計算)是將較大的模型和較小的模型同步用於訓練資料

  • 11.4.5. 在自蒸餾過程中,則是對較大的模型和較小的模型使用相同的訓練方法,並且可以實現相互訓練

  • 11.4.6. 深度學習是知識蒸餾的一部分,涵蓋語音和影像的識別

  • 11.4.6.1. 深度學習訓練資料的方式類似於人類大腦,能夠為我們提供基於語音、影像等的洞察

  • 11.4.6.2. 如果在處理過程中出現任何相容性問題,就會導致知識蒸餾失敗

11.5. 如果資料整合後的資料特徵發生了很大的變化,則可能是語言不相容引起的

  • 11.5.1. 為了避免語言不相容,通常我們可以檢查資料庫的相容性級別,並對其進行調整,這樣有助於避免出現語言不相容的情況

12. 編制文件

12.1. 不做文件編制工作是導致資料質量問題的又一個重要原因

12.2. 如果不能準確地記錄資料,那麼日後我們可能需要花費大量的時間去檢索需要的資料

12.3. 資料沼澤通常包含沒有組織好或不符合質量規範的隨機資料

  • 12.3.1. 為了避免形成資料沼澤,應該只收集和記錄與我們業務相關的資料

12.4. 如果我們擁有大量資料,那麼可以構建一個資料湖來儲存和處理大量結構化資料與非結構化資料

  • 12.4.1. 與資料倉儲相比,資料湖的一個優勢是它能以最原始的形式儲存大多數資料,而且成本更低

12.5. 維護詳細的文件編制都是保持資料準確性的必要步驟

  • 12.5.1. 如果沒有完整詳細的文件編制,日後可能造成災難

  • 12.5.2. 沒有文件支援,我們就無法瞭解所儲存資料背後的實際意義與目的

  • 12.5.3. 有了文件支援後,所有的團隊成員都可以輕鬆使用和理解被正確記錄的資料

12.6. 資料字典可以幫助減少許多資料質量問題

  • 12.6.1. 是所使用資料的相關資訊的集合,通常提供後設資料和資料情況

  • 12.6.2. 在記錄資料時,有許多可選的後設資料標準,能夠幫助指導日後資料的利用與開發過程

  • 12.6.3. 資料文件還應包含資料的含義和解釋

12.7. 文件通常會包含使用資料的規則

相關文章