對GaussDB資料庫和資料管理的簡單介紹

MySQL成长之路發表於2024-11-26

一、前言
資料庫與資料管理有著密切的關係,兩者共同構成了一個完整的、可擴充套件的資料庫管理系統。 資料庫是用於儲存資料的系統,為資料提供了安全、可靠、可擴充套件和可管理的儲存環境。

隨著資訊科技的飛速發展,資料已經成為企業的核心資產之一。在這個資料驅動的時代,資料管理成為了企業追求卓越的關鍵因素之一。GaussDB資料庫作為一款具有高效能、高可用性和高可靠的關係型資料庫管理系統,為資料管理提供了強大的支援。

二、資料質量規則體系(衡量標準)
資料管理最直接的目標是提高資料質量,最終目標是資料價值。主要驅動力是使組織能夠從資料資產中獲取價值。

隨著資料型別、資料來源的不斷豐富以及資料量的飛速增長,企業面臨資料質量問題的機率顯著增加。資料質量是一個複雜問題,往往是多種因素綜合作用的結果,解決資料質量問題要從機制、制度、流程、工具、管理等多個方面著手發力。

資料質量涉及的範圍也很廣,貫穿業務的整個生命週期,從“資料產生->資料接入->資料儲存->資料處理->資料輸出->資料展示”,每個階段都需要質量管理。

在資料庫系統建設的各個階段都應該根據標準進行資料質量檢測和規範化,及時進行管理,減少事後的治理工作。

  1. 為什麼要進行資料管理
    舉個下面的例子,很多剛入門的資料人,拿到資料後會立刻開始對資料進行各種統計、分析等,企圖能立即發現資料背後隱藏的資料價值。然而忙活了一陣發現,並不能立刻提煉出太多有價值的資訊。比如和資料打交道,可能會出現以下的場景:

場景一:統計近 7 天使用者的購買情況,結果從資料庫中統計完發現,很多資料存在了重複記錄,甚至有些資料統計單位不統一。

場景二:檢視報表,發現某一天的成交量暴跌,經過排查發現,是當天的資料缺失。

場景三:一線坐席人員進行電銷業務,撥打客戶電話,看到了客戶的敏感資訊,被客戶投訴。

場景四:比如未進行資料備份,當資料被誤操作、業務系統當機時造成的資料丟失等。

造成這些情況的一個重要因素就是忽視了對資料的管理,沒有制定合理的衡量標準,沒有對資料進行審計和安全等管理。導致沒有發現資料已出現的問題。所以,進行科學、客觀的資料質量規則體系是非常必要且十分重要的。

2、資料質量規則體系

完整性:指資料在建立、傳遞過程中無缺失和遺漏,包括實體完整、屬性完整、記錄完整和欄位值完整四個方面。完整性是資料質量最基礎的一項,例如員工工號不可為空。
唯一性:指同一資料智慧有位移的識別符號。體現在一個資料集中,一個實體只出現一次,並且每個唯一實體有一個鍵值且該鍵值只指向該實體。例如員工有且僅有一個有效工號。
有效性:指資料的值、格式和展現形式符合資料定義和業務定義的要求。例如員工的國籍必須是國家基礎資料中定義的允許值。
一致性:指遵循同一的資料標準記錄和傳遞資料和資訊,主要體現在資料記錄是否規範、資料是否符合邏輯。例如同一工號對應的不同系統中的員工姓名需一致。
準確性:指真實、準確地記錄原始資料,無虛假資料集資訊。資料要準確反映其所建模的“真是世界”實體。例如員工的身份資訊必須與身份證件上的資訊一致。
及時性:指及時記錄和傳遞相關資料,滿足業務對資訊獲取的時間要求。資料交付要及時,抽取要及時,展現要及時。資料交付時間過長可能導致分析結論失去參考意義。
三、GaussDB資料庫中如何實現資料管理
在GaussDB資料庫中,可從如下幾方面進行資料管理(包含但不限於)。

1、資料質量設計
從語法、語義、語用三個方面去定義和衡量資料質量,在資料產生、資料加工以及資料使用的全過程中均需要符合其制定的標準和規範。如下圖示:

2、資料保護技術
GaussDB透過多種資料保護手段和特性,保障儲存在GaussDB中的資料安全可靠。

傳輸加密(HTTPS):支援HTTP和HTTPS兩種傳輸協議,為保證資料傳輸的安全性,推薦您使用更加安全的HTTPS協議。
敏感操作保護:控制檯支援敏感操作保護,開啟後執行刪例項等敏感操作時,系統會進行身份驗證,進一步保證GaussDB配置和資料的安全性。
SSL資料加密:可以使用SSL來加密資料庫GaussDB和客戶端的連線。SSL透過互相認證、使用數字簽名確保完整性、使用加密確保私密性,以實現客戶端和伺服器之間的安全通訊。
3、資料儲存
GaussDB支援行列資料儲存模型方式。進行資料庫設計時,表設計上的一些關鍵項將嚴重影響後續整庫的查詢效能。表設計對資料儲存也有影響:好的表設計能夠減少I/O操作及最小化記憶體使用,進而提升查詢效能。

表的儲存模型選擇是表定義的第一步。客戶業務屬性是表的儲存模型的決定性因素,依據下面表格選擇適合當前業務的儲存模型。

4、資料加密模型
全密態資料庫使用多級加密模型,不同加密場景中金鑰的功能如下:

資料:密態資料庫對SQL語句中屬於加密列的資料進行加密,對資料庫服務端返回的屬於加密列的查詢結果進行解密。
列金鑰:資料由列金鑰進行加密,而列金鑰由主金鑰加密。列金鑰密文儲存在資料庫服務端。
主金鑰:由外部金鑰管理生成並儲存,資料庫驅動會自動訪問外部金鑰管理,以實現對列金鑰進行加解密。
5、資料備份
GaussDB支援多種資料備份和恢復方式,如全量備份、增量備份和差量備份等。這些備份和恢復方式可以保證資料的一致性和可靠性,避免資料丟失和損壞。

備份策略:

全量備份:第一次的全量備份後,無論資料是否變化,第二次備份和第三次備份都會將所有的資料全部進行備份。
增量備份:第一次的全量備份之後,第二次備份只會備份資料變化的資料,第三次備份只會備份第二次備份後資料變化的資料。
差量備份:第一次的全量備份之後,第二次備份只會備份資料變化的資料,第三次備份會備份第一次全量備份後資料變化的資料。
GaussDB會在資料庫例項的備份時段中建立資料庫例項的自動備份。系統根據您指定的備份保留期儲存資料庫例項的自動備份。擴容例項CN或者分片後,系統會進行一次自動備份。 使用者還可以建立手動備份對資料庫進行備份,手動備份是由使用者啟動的資料庫例項的全量備份,會一直儲存,直到使用者手動刪除。

四、小結
GaussDB資料庫憑藉其高效能、高可用性和高可靠的特點,為資料管理提供了強大的支援。企業應充分利用GaussDB資料庫對資料管理的更多功能和優勢,加強資料管理實踐,不斷提升資料質量、資料安全,為企業的發展創造更大的價值。

另外,對於資料管理而言,資料庫是一種其必不可少且功能強大的資料管理工具。資料管理工作除了依賴資料庫外,更多的要結合企業的管理機制、制度、流程、第三方工具等。例如,建立資料管理體系、制定資料管理標準、加強資料使用者的培訓、定期進行資料質量管理檢查等。

——結束

​https://bbs.huaweicloud.com/forum/forum-565-1.html

相關文章