1. 對資料進行認證
1.1. 資料認證是指在資料資產滿足關於資料質量、可觀測性、權責分配、問題解決和溝通等公司內共同遵守的SLA後,批准它們被用於整個組織的過程
1.2. 資料認證為人員、框架和技術構建了關鍵流程,使其與核心業務政策保持一致
1.3. 資料認證的要求會因業務需求、資料工程團隊的能力和資料可用性的不同而有所差異
1.4. 特性
-
1.4.1. 自動化的質量檢查,包括資料的新鮮度、容量、模式和分佈
-
1.4.2. 明確定義正常執行時間的交付SLA
-
1.4.3. 負責調查資料警報的資料所有者
-
1.4.4. 將警報傳達到Slack頻道中(或透過電子郵件傳送)
-
1.4.5. 設定針對當機的資訊溝通流程
2. 資料認證流程
2.1. 資料認證流程通常在多個領域採用一致的方法,來提高其可擴充套件性
2.2. 步驟
-
2.2.1. 擴充套件資料可觀測性的能力
-
2.2.1.1. 實現資料可觀測性(即組織全面瞭解系統內資料健康狀況的能力)是資料認證流程的首要步驟
-
2.2.1.2. 需要了解當前的系統效能以建立基準指標
-
2.2.1.3. 需要一個系統性的端到端方案來主動對資料事件進行發現、預警和分流
-
2.2.1.4. 由可觀測性驅動的資料事件儀表板能夠自動呈現異常情況、模式變更、被刪除的表以及違規情況
-
2.2.1.5. 如果資料管道中的任何部分出現故障(這是遲早的事),你將是第一個知道的人
-
2.2.1.6. 瞭解哪些系統和資料集總是引發最糟糕或最頻繁的下游問題,能夠幫助你編寫有效的資料SLA
-
2.2.2. 確定資料所有者
-
2.2.2.1. 每個被認證的資料資產都應該有一個負責人,負責從攝取層到分析層的整個生命週期
-
2.2.3. 瞭解什麼是“好”的資料
-
2.2.3.1. 制定KPI
> 2.2.3.1.1. 新鮮度
> 2.2.3.1.1.1. 資料在每天早上8點重新整理
2.2.3.1.1.1.1. 適用於CEO或其他主要高管在早上8:30檢視儀表板的情況
> 2.2.3.1.1.2. 資料永遠不會超過Xh不更新
> 2.2.3.1.2. 分佈
> 2.2.3.1.2.1. X列永遠不會為空值
> 2.2.3.1.2.2. Y列的值永遠都是唯一的
> 2.2.3.1.2.3. X欄位總是大於等於Y欄位
> 2.2.3.1.3. 容量
> 2.2.3.1.3.1. X表的大小永遠不會減少
> 2.2.3.1.4. 模式
> 2.2.3.1.4.1. 該表中的任何欄位都不會被刪除
> 2.2.3.1.5. 沿襲
> 2.2.3.1.5.1. 填充X表的資料100%都將與上游來源和下游攝取相對映,幷包括相關的後設資料
> 2.2.3.1.6. 資料當機時間(或可用性)
> 2.2.3.1.6.1. 資料事件的數量乘以(檢測所需時間+解決所需時間)
> 2.2.3.1.6.2. 衡量資料當機時間的各個部分的SLA可以更具體地指導行動
> 2.2.3.1.7. 查詢速度
> 2.2.3.1.8. 資料攝取
> 2.2.3.1.8.1. 每天早上5點從合作伙伴Y那裡接收資料
> 2.2.3.1.8.2. 非常適合讓外部合作伙伴最終負責
-
2.2.4. 為最重要的資料集設定清晰的SLA、SLO和SLI
-
2.2.4.1. SLA必須要具體,可以透過SLO和SLI進行評估,並且可以實現
-
2.2.4.2. SLA不僅描述了協議規定的服務標準,還規定了各方之間的關係
-
2.2.4.3. SLA概述了在正常運營以及發生問題時各方的責任
> 2.2.4.3.1. SLA中包括了團隊在未能達成SLA時應該如何響應
-
2.2.4.4. 團隊應當趁早並經常與利益相關方保持協同,以瞭解什麼才是“好”的資料
-
2.2.4.5. 利益相關方既包括資料團隊,也包括團隊外的業務部門
-
2.2.4.6. 好的SLA需要根據業務運營的實際情況和使用者對資料的使用方式來制定
-
2.2.4.7. 不要試圖做到一勞永逸
> 2.2.4.7.1. 大多數客戶都是先實施其資料認證程式以確保有所進展,然後再在第二波行動中清理舊的資產
> 2.2.4.7.2. 首先認證最關鍵的表和資料集,也就是那些對業務增值最多、查詢活動最多、使用者數量或上下游依賴關係最多的表和資料集
-
2.2.5. 制定溝通和事件管理流程
-
2.2.5.1. 考慮如何向整個組織通報重大事故也是非常重要的
-
2.2.6. 確定資料認證機制
-
2.2.6.1. 為利益相關方進行認證並呈現經過批准的資料資產了
-
2.2.6.2. 採用去中心化的認證流程
> 2.2.6.2.1. 認證流程旨在幫助團隊加速並擴大規模
-
2.2.6.3. 資料團隊應當適當地標記、搜尋並利用資料表,使用資料發現解決方案這一自主開發的工具或其他形式的資料目錄
-
2.2.7. 培訓資料團隊和下游使用者
-
2.2.7.1. 僅僅把資料表標記為“已認證”並不能保證分析師們會嚴格遵守規定
-
2.2.7.2. 資料團隊需要接受培訓來學習適當的工作流程,而必要時這些流程會被強制執行
-
2.2.7.3. 對警報和通知的級別進行微調也都非常重要
-
2.2.7.4. 偶爾收到不需要對其採取行動的警報是有益的
-
2.2.7.5. 對於某個人來說是“意料之中”的行為可能對另一個團隊成員甚至另一個領域的成員來說仍是重要的新訊息
-
2.2.7.6. 警報疲勞也是真實存在的
> 2.2.7.6.1. 團隊因疲勞而開始忽視警報資訊,那麼你可以透過調整監控系統或對通訊渠道進行分流來最佳化警報方案,從而更好地展示最重要的資訊
2.3. 資料工程師將資料表標記為認證透過,並與資料集的所有者一起將其展示在資料倉儲中,然後分析師就可以提取資料,並在他們的儀表板中進行使用
2.4. 為了更好地應對資料質量在文化層面與組織層面的障礙,現代資料團隊可以優先採用能夠發揮其業務強項和需求的團隊結構
3. 案例分析
3.1. 資料領導者們的任務之一就是要擴大團隊的規模,並且要快速地完成這項任務
3.2. 為資料團隊確定合適的彙報結構
- 3.2.1. 隨著資料需求的增加,集中式資料團隊會造成效率瓶頸,而分散式資料團隊則會導致重複工作和流程的複雜性
3.3. 以分散式資料運營支援超級增長
3.4. 即使擁有了技術層面上準確的資料,在建立整個公司範圍內的資料可觀測性和對資料的信任時,資料分析師、技術領導者和下游利益相關者之間的良好溝通也是至關重要的
3.5. 專注於尋找最適合公司業務需求的方案,而業務需求很可能隨時間推移而改變
3.6. 僱用資料綜合專家而不是專門人才
-
3.6.1. 有一個例外
-
3.6.1.1. 應當聘用的專家是資料工程師
-
3.6.1.2. 資料團隊常常因缺乏建立並維護ETL管道所需的技術支援而束手無策,同時也無法確保其底層的資料基礎設施能夠根據公司的分析需求進行擴充套件
-
3.6.2. 從第一天起就優先構建多樣化的資料團隊
-
3.6.2.1. 團隊多樣化的好處是不言而喻的,但當你為團隊的長期成功建立基礎時,你需要儘早開始招募擁有不同經驗和背景的候選人
-
3.6.2.2. 與管理層和人力資源團隊合作編寫工作描述,使其對不同的經驗和背景都具有包容性
-
3.6.2.3. 組建多元化的招聘小組,即使小組成員並不來自資料團隊也沒關係
-
3.6.2.4. 廣泛招募候選人,即使他們並不擁有傳統意義上的資料類頭銜或職位
-
3.6.2.5. 實施一個完全不考慮性別和種族因素的招聘流程,只根據候選人的資格和經驗進行篩選
-
3.6.2.6. 在創業後期才開始構建多元化的團隊可能會更加困難,因為來自多元化背景的人們會更想加入背景多元化的團隊
3.7. 過度溝通反而是改變管理模式的關鍵
- 3.7.1. 僱用溝通能力強的人才,一切都會變得更容易
3.8. 不要過度看重“單一真相來源”
-
3.8.1. “單一真相來源”或“黃金資料”是一個非常強大的概念,而這是有道理的
-
3.8.2. 努力實現評估指標的協同和始終如一的乾淨資料可以幫助公司對資料產生信任,並相信資料在指引他們朝著正確的方向前進
-
3.8.3. 二八定律才是關鍵
-
3.8.3.1. 資料常常是雜亂無序的,很少會完美無缺
-
3.8.3.2. 如果你優先考慮對資料健康狀況進行端到端的觀察,而非精細入微的控制,那麼你的工作效率就能夠大幅提高
4. 資料素養
4.1. 以一種能夠為組織帶來價值和影響的方式對資料進行解讀、編纂和溝通的能力
4.2. 好的資料素養戰略會利用自助式工具並培訓非技術團隊成員,來增加資料的可訪問性和可操作性,並獲得公司內部自頂向下的認可和自底向上的採用
4.3. 要實現“資料流利性”,資料經理們應當兼顧資料素養的推廣並對利益相關方就資料質量的價值進行培訓,因為這兩者都很重要
4.4. 在長期可持續地實施資料質量計劃並保證資料團隊取得成功的過程中,最大的障礙是缺乏文件記錄
- 4.4.1. 太多的團隊依賴於口口相傳而非落實到文字上的知識和過時的維基頁面來追蹤資料,這根本不能實現規模化地運作,也不是一個可持續發展的方案
4.5. 缺乏關於資料和後設資料的健壯資訊是資料團隊的主要痛點之一
-
4.5.1. 資料目錄
-
4.5.2. 資料庫管理系統
-
4.5.3. 資料建模工具
-
4.5.4. 運營分析儀表板
5. 資料治理和合規性
5.1. 資料治理指的是在組織內外對資料進行管理的過程,它也是許多資料領導者們的頭等大事,特別是GDPR、CCPA、IPO、COVID-19或者任何其他縮略語
5.2. 資料治理是保障資料的有效性、可用性、來源和安全性的過程
5.3. 資料治理之所以聲名狼藉,主要是因為傳統的方法無法滿足基於雲端的資料棧需求
5.4. 優先考慮資料目錄
-
5.4.1. 資料目錄一直被資料團隊用於儲存並編纂關於資料使用及其位置的後設資料
-
5.4.2. 手工資料目錄和後設資料管理平臺曾經一度是資料治理的預設方法
-
5.4.3. 隨著資料系統的演變,我們發現這些方法已經無法跟上資料增長和跨領域資料分佈的步伐
-
5.4.3.1. 內部解決方案
> 5.4.3.1.1. 內部解決方案的最大優點是,能夠透過提取團隊最需要的資料欄位,快速建立定製化的儀表板
- 5.4.3.2. 第三方工具
> 5.4.3.2.1. 在過去,資料目錄一向是手動、分散地進行管理的,而這通常需要不同分析師和資料科學團隊之間的重複工作
- 5.4.3.3. 開源技術
> 5.4.3.3.1. 資料發現和後設資料引擎Amundsen
> 5.4.3.3.2. Apache Atlas
> 5.4.3.3.3. Magda
> 5.4.3.3.4. CKAN
5.5. 實施資料治理
-
5.5.1. 填補治理漏洞是一項艱鉅的任務,沒有對公司實際訪問資料資產的全部瞭解,就無法優先解決治理漏洞問題
-
5.5.2. 資料沿襲和可觀測性有助於填補這些漏洞
-
5.5.3. 資料的可訪問性和安全性也是資料治理的重要功能組成部分,特別是對於使用分散式分析團隊模式或敏感的第三方資訊的企業
-
5.5.4. 資料治理也是一種文化上的轉變
6. 資料質量策略
6.1. 讓領導層對資料質量最終負責
6.2. 設定資料質量的KPI
-
6.2.1. 避免在資料質量的評估上用力過猛
-
6.2.2. 簡單的措施才是好用的
6.3. 帶頭實施資料治理計劃
6.4. 自動化資料沿襲與資料治理工具
-
6.4.1. 隨著關於資料訪問和應用的管理措施的日益嚴格,以手動方式監控資料質量來進行資料治理已經不能滿足需求了
-
6.4.2. 手動資料質量監控不僅煩瑣耗時,其技術水平也在創新程度方面落後於資料棧的其他部分
-
6.4.3. 採用能夠對資料質量問題進行快速驗證、監控和預警的自動化工具,來取代手動的解決方案
6.5. 建立溝通計劃
-
6.5.1. 制定一個健壯而全面的專案級別溝通計劃,來幫助領導層瞭解專案進展,讓利益相關方與計劃保持同步,並讓資料監管者瞭解其工作任務
-
6.5.2. 好的溝通計劃是雙向的,可以讓所有相關人員都瞭解重要可交付目標的情況
-
6.5.3. 資料質量戰略的目標是:確保全公司的所有團隊都能有信心使用可靠的資料
-
6.5.4. 對於資料方面的一切任務,從擴充套件高效的資料團隊到構建優秀的資料平臺,一個健壯而全面的資料質量戰略都能起到決定性的作用
7. 要點
7.1. 將資料視為軟體產品並認真對待
7.2. 組建一個能在源頭上優先考慮資料質量的資料團隊
7.3. 以資料素養為首要目標
7.4. 採用能夠大規模實施資料治理的流程和技術
7.5. 越來越多的公司正在聘用資料可靠性工程師、資料可觀測性專家和資料素養官來帶頭開展這些資料質量計劃,讓資料工程師和分析師們能夠更輕鬆地在日常工作中使用資料質量的最佳實踐