談談建立有效資料質量規則特別關注的5大要素

張哥說技術發表於2023-02-01

談談建立有效資料質量規則特別關注的5大要素

根據 Gartner 的資料質量市場調查,低質量資料每年使公司損失約 1500 萬美元,那麼如何透過建立有效的資料質量規則來提高資料質量呢。

什麼是資料質量規則

資料質量規則是企業對其資料設定的要求。這些要求旨在滿足兩個相互依存的目標:

1.定義資料應遵循的格式以及資料元素之間應存在的依賴關係。

2.作為企業根據這些要求衡量和檢查其資料質量的參考。

比方說,對於即將發起的電子郵件營銷活動,我們需要最佳化工作和成本,需要決定篩選出無效電子郵件。為此,建立簡單的規則:

  • 電子郵件必須包含“@”符號。

  • '@' 只能使用一次。

  • 電子郵件必須包含以下任何或所有內容:字母、數字、非字母字元,例如,! # $ % & ' * + – / = ? ^ _ ` { 。

透過僅向經過驗證的電子郵件傳送訊息,企業將能夠改善與客戶的溝通,並更好地評估活動在電子郵件開啟率、點選率等方面的成功。

然而,這套電子郵件資料質量規則絕不是詳盡無遺的。例如,如果進行有針對性的營銷活動,那麼再建立一個規則是有意義的。這將幫助企業避免在訊息開頭出現令人尷尬的“親愛的 N/A”或“親愛的……”:

  • 電子郵件引用的“客戶全名”欄位不得為“空”。

如果想驗證名稱的拼寫以正確稱呼客戶,可以提出額外的規則:

  • 客戶的全名只能由字母組成;不允許使用其他字元。

  • 只有客戶姓名、中間名(如果有)和姓氏中的首字母必須大寫。

建立有效資料質量規則需要考慮的因素

1.業務主題專家需要深入參與

不同的部門有不同的優先事項。要制定全面的資料質量規則,應該正確定義所有主題專家並明智地整合他們的要求。如果不從不同部門的角度看待資料,可能會破壞所有資料管理工作。例如,銀行的貸款部門會將貸款金額、貸款到期日和月利率視為關鍵資料。他們很可能會認為客戶名稱或客戶訪問過的分支機構的字首不值得填寫。相反,市場部對貸款相關資訊不太感興趣,但他們會找到客戶資料對於有效溝通和建立單一客戶檢視非常重要。

2.資料質量規則的數量要適中

在爭取提高資料質量的過程中,重要的是不要忘形於太多的質量規則。過多的資料質量規則顯著降低系統效能,因為需要更多的計算能力和時間來執行檢查。根據 10 條規則檢查欄位與根據 100 條規則檢查欄位不同。因此,應該找到一個很好的平衡點。

3. 需要採用循序漸進的方法

我們不必建立涵蓋所有資料的規則,也不必一口氣解決所有問題。我們應該對資料進行分類並定義需要立即關注並盡最大努力的關鍵元素。例如,要開展有針對性的營銷活動,“客戶姓名”、“出生日期”和“電子郵件”欄位至關重要,而家庭住址可被視為有用的額外資訊。完成關鍵資料後,可以繼續處理 #2 優先順序,依此類推。簡而言之,資料質量管理是接力賽,而不是短跑,然後採取相應的行動。

4.單獨對待資料庫的每個欄位並相應地建立規則

有多種資料質量特徵,我們的任務是確定哪些最適合特定領域。我們以'員工全名'和'員工聯絡電話'為例。第一個欄位包含關鍵資訊,而第二個欄位不包含。所以,“員工姓名”要滿足完整性、唯一性和準確性的要求,而“員工聯絡電話”——準確性和有序性。這些特徵應反映在資料質量規則中,例如:

  • 員工全名不得為 N/A(以確保完整性)。

  • 一個'員工全名'必須對應一個'身份證號碼'(以確保唯一性)。

  • 員工全名必須至少包含一個空格,必須僅由漢字組成,不允許使用數字、字母或其他字元(以確保準確性和完整性)。

  • 員工聯絡電話必須僅包含數字(以確保準確性和有序性)。

  • 員工聯絡電話必須採用 +1 NXX-NXX-XXXX 格式,其中 N 表示 2 至 9 的數字,X 表示 0 至 9 的數字(以確保準確性和有序性)。

5. 為資料質量規則選擇集中儲存還是本地儲存

如果是大型多元化企業,應該決定是將規則集中儲存還是在每個企業本地儲存。每種方法都有其優點和缺點。例如,在完全集中的情況下,將採用標準方法來捕獲客戶的姓名,無論他們與什麼業務進行互動。在分散資料管理的情況下,可以獲得更大的靈活性,因為將只關注與特定業務方向相關的資料規則。

綜述

如果決定管理資料質量,將不可避免地要處理資料質量規則。建立這些規則需要考慮來自不同部門的意見、不要建立太多規則,否則會損害系統的效能、不必一次完成所有操作、為資料庫的每個欄位選擇單獨的資料質量特徵、為資料質量規則做出集中儲存還是本地儲存的決策。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2933590/,如需轉載,請註明出處,否則將追究法律責任。

相關文章