對待資料質量的28個原則

張哥說技術發表於2023-12-06

作為資料工程師或資料架構師,您負責設計和構建儲存和處理為您的組織提供支援的資料的基礎設施。但您是否曾想過將您的資料視為犯罪現場?在本文中,我們將探討這種方法為何有益,以及如何在自己的工作中實施它。

當我們想到犯罪現場時,我們會想到發生過壞事的地方,以及可以找到有助於偵破犯罪的證據的地方。但是,當我們將資料視為犯罪現場時,我們並不是在尋找不當行為的證據。相反,我們正在尋找資料發生了什麼、如何處理以及去了哪裡的證據。

為什麼我們應該像對待犯罪現場一樣對待我們的資料?因為這樣做可以幫助我們回答有關資料的一些重要問題。

例如:

這些資料從哪裡來?

是如何加工的?

誰訪問過它,何時訪問過?

它是否被修改過?如果修改過,是由誰修改的?

回答這些問題可以幫助我們確保資料的質量和完整性,還可以幫助我們識別潛在的安全或合規性問題。

那麼,我們如何像對待犯罪現場一樣對待我們的資料呢?以下是一些需要牢記的關鍵原則:

💥記錄一切

您知道犯罪現場調查員如何仔細記錄他們在犯罪現場發現的一切嗎?那麼,您應該對資料管道做同樣的事情!這意味著跟蹤您的資料來自哪裡、經歷了哪些步驟以及誰可以看到它。透過詳細記錄所有這些事情,您將能夠快速發現並解決出現的任何問題。

💥監控異常情況

可以把它想象成犯罪現場的偵探。你總是在尋找與其他證據不太相符的線索。同樣,當涉及到資料管道時,您需要留意任何可能異常的異常情況。這可能是任何情況,從正在處理的資料量突然激增到異常訪問模式。透過密切關注這些異常情況,您可以快速識別任何潛在問題並在問題變得更大之前採取行動。

💥實施訪問控制

可以將其想象為犯罪現場調查員,他設定障礙並控制誰可以進入犯罪現場。您應該透過設定訪問控制來對您的資料執行相同的操作。這意味著確保只有授權使用者才能訪問敏感資料,並限制對需要的人的訪問。就像您不希望未經授權的人在犯罪現場閒逛一樣,您也不希望任何人不應該訪問您的資料。

💥保護您的資料

您是否見過犯罪現場調查員保護犯罪現場周圍的區域?令人印象深刻,對吧?嗯,就像他們一樣,您需要保護您的數字資料。想象一下,您是自己的網路犯罪現場的調查員。您希望確保您的資料受到保護且安全。實現此目的的一種方法是在靜態資料和傳輸資料時對資料進行加密。設定一些防火牆規則來限制對資料的訪問也很重要。這樣,您就可以保證資料的安全,就像犯罪現場調查員如何保證犯罪現場的安全一樣。

💥執行稽核

與 CSI 檢查犯罪現場的方式類似,定期檢查資料管道也很重要。這包括檢查訪問日誌、仔細檢查資料是否得到準確處理以及確認資料是否得到安全儲存。就像 CSI 千方百計一樣,您也應該在資料管道中不遺漏任何區域。

💥保留備份

想象一下您是一名偵探,正在調查犯罪現場。你收集證據吧?嗯,就像這樣,您應該保留資料的備份。如果您的任何檔案丟失或損壞,這將派上用場。這就像擁有自己的個人犯罪現場調查小組一樣。另外,如果您的資料有任何問題,您可以像真正的偵探一樣進行調查。因此,請積極主動並保留這些備份!

💥災難恢復計劃

想象一下,您是一名犯罪現場調查員,總是預測意外事件。同樣,您應該為發生硬體故障、自然災害或任何其他不可預見的情況時的災難恢復做好準備。制定可靠的計劃對於快速有效地恢復至關重要。

💥測試你的管道

與偵探如何測試他們關於犯罪現場發生的事情的理論類似,測試資料管道對您來說也很重要。這意味著嘗試不同的場景,確保您的資料得到準確處理,並檢查您的管道是否可以處理任何意外情況,例如突然湧入的資料或意外型別的資訊。就像一名優秀的偵探一樣,您希望確保您的管道能夠承受壓力並提供可靠的結果。

💥定義資料結構和資料型別

調查犯罪現場時,識別不同型別的證據很重要,對吧?好吧,您的資料管道也是如此。透過定義所使用的資料結構和資料型別,您可以確保資料得到一致且準確的處理。這就像犯罪現場調查員如何識別任何意外的變化或不一致之處一樣。這一切都是為了讓事情井井有條並受到控制。

💥使用一致的命名約定

就像犯罪現場的偵探必須標記和識別他們發現的所有東西一樣,在資料管道中使用一致的命名約定非常重要。這樣,您的資料就可以輕鬆發現和查詢,並且可以避免任何混淆或錯誤。

💥尋找資料中的模式

如果您是犯罪現場調查員,您會尋找證據中的模式,對吧?好吧,分析資料也是如此!密切關注任何異常值或異常情況,跟蹤一段時間內的趨勢,並尋找可能指出潛在問題或機會的模式。就像您正在解開自己資料中的謎團一樣!

💥使用資料驗證技術

想象一下,你是一名偵探,試圖破案。就像犯罪現場調查員需要驗證證據來解決犯罪一樣,您需要使用資料驗證技術來驗證您的資料。這就像檢查指紋或其他線索以確保找到正確的嫌疑人。您需要確保您的資料完整、準確且一致,有時您甚至需要將其與外部來源或基準進行比較。這一切都是為了確保您的案件或您的資料在法庭上站得住腳。

💥確保資料沿襲

如果您是犯罪現場調查員,您會追蹤證據的來源,對吧?嗯,就像這樣,跟蹤資料管道中的資料沿襲非常重要。這意味著要密切關注資料在管道中的移動位置,從起始位置到結束位置。就像跟蹤證據可以為您提供重要資訊一樣,跟蹤資料沿襲可以幫助您瞭解資料的使用方式,並提醒您可能的問題或機會。

💥 執行根本原因分析 (RCA)

如果您曾經調查過犯罪現場,您就會知道找到犯罪的根本原因是多麼重要。嗯,資料管道也是如此!每當出現問題或發生奇怪的事情時,您都需要執行根本原因分析以找出問題的根源。這意味著找出真正導致問題的原因,並採取措施阻止未來再次發生。就像解決犯罪一樣,一切都是為了找到問題的根源。

💥監控資料質量

與熟練的調查員密切關注證據類似,您也需要密切關注您的資料。這意味著設定自動監控和警報,以快速發現資料的任何潛在問題,並立即採取措施修復它們。把它想象成一個犯罪現場——你不會讓任何線索被忽視,所以也不要讓任何資料問題被忽視。掌控一切並控制一切。

💥跟蹤資料沿襲

想象一下,你是一名偵探,正在追查一個大案。就像您必須拼湊每條小線索才能弄清楚發生了什麼一樣,您也需要跟蹤資料以瞭解發生了什麼。這一切都是為了記錄資料的來源和去向,以便您準確地知道每一步發生了什麼。將其視為遵循資料的家譜,從其誕生地到最終目的地。

最酷的部分是:就像偵探如何使用特殊工具來追蹤線索一樣,您可以使用資料沿襲跟蹤來追蹤資料的旅程。該技術允許您跟蹤資料在管道中從開始到結束的移動情況。因此,如果您想解開資料之謎,資料沿襲跟蹤是關鍵。這就像案件中的一名偵探,指導您完成每一步。

💥使用機器學習 (ML) 技術

就像調查人員如何使用複雜的方法來審查犯罪現場的證據一樣,您也可以使用機器學習技術來檢查您的資料。透過應用機器學習演算法,您可以發現模式和不規則之處,並發現可以增強或最佳化資料流的領域。

💥實施變更管理(CM)流程

將您的資料管道視為犯罪現場,而您就是調查員。你不會讓任何人走進來篡改證據,不是嗎?好吧,您的資料管道也是如此。您需要有一個可靠的變更管理流程來控制誰可以對其進行更改。這意味著擁有一個清晰的系統來請求、審查和批准變更,並確保在付諸行動之前對其進行適當的記錄和測試。就像犯罪現場調查員需要保護證據的完整性一樣,您也需要保護資料管道的完整性。

💥與資料利益相關者合作

正如犯罪現場調查員與其他利益相關者合作解決犯罪一樣,您應該與組織中的其他利益相關者協作,以確保您的資料管道滿足他們的需求。這涉及定期與利益相關者溝通,以瞭解他們的要求並解決他們可能遇到的任何問題或疑慮。

💥維護資料隱私

與犯罪現場調查員重視案件相關人員的機密性類似,維護資料管道中的資料隱私也至關重要。它可能包括在需要時遮蔽資料,並保證機密資訊得到謹慎處理並遵守相關規則和法規。

💥跟上新興技術

就像緊跟最新取證方法的偵探一樣,您也應該隨時瞭解可以增強資料管道的新興技術。想象一下在犯罪現場發現了一個新的證據——你不會忽視它,對吧?同樣,不要忽視資料處理、分析和視覺化新工具和技術的潛在好處。隨時瞭解情況並保持您的資料調查一流。

💥持續監控和改進

像犯罪現場調查員一樣開始尋找新的線索,您還應該不斷監視您的資料管道。密切關注它可以幫助您發現任何缺陷,併為您提供如何修復它們的想法。因此,請務必定期檢查您的管道,並在必要時努力對其進行升級。

💥培養資料質量 (DQ) 文化

與犯罪現場調查員與其他專家合作解決案件的方式類似,在團隊中鼓勵一流資料質量的文化至關重要。這意味著指導和教導團隊成員瞭解資料準確性的重要性,並建立一種高度重視維護高質量資料的工作氛圍。

💥文件資料所有權

想象一下,您是一名正在偵辦案件的偵探,並且發現了一些重要的證據。就像犯罪現場調查員如何記錄證據屬於誰一樣,記錄誰擁有您的資料對您來說也很重要。您需要保留一份清晰簡明的記錄,記錄誰負責管理它,以及誰有權訪問它。這就像確保拼圖的所有部分拼湊在一起以解決案件一樣!

💥實施資料治理

您是否見過犯罪現場調查員如何一絲不苟地遵循嚴格的協議來處理證據?這也是您處理資料的方式!實施資料治理以確保資料得到一致處理並遵守法規非常重要。這就像制定資料管理政策和程式並確保每個人都遵守它們。就像犯罪現場中每一條線索都得到謹慎和精確的處理一樣,資料也應該受到同等程度的關注和保護。

💥使用資料分析

就像熟練的偵探調查犯罪現場尋找重要線索一樣,您可以利用資料分析來搜尋資料中的模式和異常情況。透過利用自動化工具檢查資料,您可以查明潛在問題,例如缺失值、不一致的資料型別或異常值,就像法醫調查員如何在犯罪現場發現有價值的證據一樣。

💥使用版本控制

就像調查人員如何使用技術來跟蹤犯罪現場的變化和更新一樣,版本控制是軟體開發和資料管道的標準做法。它有助於跟蹤所做的任何更改,從而更容易識別誰做了什麼以及為什麼。另外,如果出現問題,您可以輕鬆回滾更改並恢復到之前的狀態。可以將其想象為一名偵探記錄犯罪現場的所有變化以幫助破案。

像處理犯罪現場一樣處理資料有助於確保資料的質量和完整性,並識別潛在的安全或合規性問題。透過遵循記錄所有內容、使用版本控制和監控異常等關鍵原則,您可以建立強大且可靠的資料管道來滿足組織的需求。

雖然像處理犯罪現場一樣處理資料可能需要更多的前期工作,但它最終可以透過快速識別和解決出現的任何問題來節省時間和資源。需要考慮的其他原則包括保護資料、執行審計和培養資料質量文化。

遵循這些原則,您可以建立滿足組織需求的資料基礎架構,並根據高質量資料做出明智的決策。透過關注資料質量、治理和安全性,您可以確保資料管道可靠並能夠支援組織的目標。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/rJ3KHl3Juelztk_39AcHZA,如有侵權,請聯絡管理員刪除。