以場景驅動CMDB資料治理經驗分享

danny_2018發表於2023-12-04

【摘要】資料治理是 CMDB 專案實施中難度最大、成本最高的環節,是一個長期治理的過程,而行業很少提出 CMDB 資料治理的技術實現方案。本文作者結合CMDB資料運營實際工作,分享以技術治理場景驅動 CMDB 資料治理的一些經驗。

【作者】彭華盛,10年+的金融領域運維工作,期間負責參與運維組織、流程、工具建設,包括重大業務系統與資料中心工程性專案實施,標準化工作流程構建,平臺工具體系的規劃與研發、數字化轉型研究與實施相關等,對金融領域的運維有較全面理解。

資料治理是 CMDB 專案實施中難度最大、成本最高的環節,是一個長期治理的過程,而行業很少提出 CMDB 資料治理的技術實現方案。CMDB 資料治理不僅需要解決配置管理工程性的技術問題,還要基於運維組織的特點,建立適應性的配置運營能力、設定專崗專責、梳理配置目錄、制定配置項管理機制、落地流程、自動化策略、定期建立配置資料質量監測或分析、觸發配置問題治理任務、技術運營等工作。在《運維數字化轉型》書中,我結合在 CMDB 資料運營的工作經驗,抽象建章立制、價值導向、問題驅動、閉環跟進四步走的 CMDB 資料治理方法。本文將進一步細化以技術治理場景驅動 CMDB 資料治理的一些經驗。

1.專崗負責

明確分層次的專崗專責。此處的專崗負責制包括CMDB治理統籌專崗、執行任務團隊專崗、執行治理任務專崗三級。其中,統籌專崗對資料治理整體治理水平的持續提升負責,來自橫向最佳化角色;執行團隊專崗負責傳遞、督促治理工作落實,對職能團隊的治理情況起督促性作用,來自於職能團隊;執行任務專崗責任配置項及配置屬性的正確性,來自於職能崗位。

線上化建立專崗間協同。基於“縱向到底、橫向到邊”的思路,CMDB能夠納管的IT資產範圍越來越多,引發配置項問題的源頭也會不斷出現,具體的治理實施過程是一系列瑣碎的工作。確保每一個資料問題都能夠解決,需要從問題發現、問題修正、修復核實、“漏洞”最佳化建立一個全線上的解決方案。

責任細分到每一個任務。專崗負責制需要針對每一項資料問題任務化,每一項任務最好能夠具體到某一個特定的人。一個任務如果允許多個責任人(非會籤),容易引發分工、責任不明確、責任人之間意見分歧等導致任務進展緩慢的問題。我個人認為,任務更適合儘可能的細分到某一個責任人獨立承擔,且有明確的截止時間。雖然任務責任明確一個人,也可能帶來責任人請假等問題,但總體效果看,能夠避免推諉和分工不明確的突出問題。

2.流程保障

規範化的流程是機制能夠順利落地的保障基礎。規範化是一種行為標準,能夠約束個體的行為,建立一個有序的協同秩序,幫助協同中各個角色保持統一的協同意識,形成一個集團軍作戰的能力,提升組織整體工作效率。在一些小型團隊裡可能會更加強調單兵作戰能力,但是當組織形成一定規模後,必要的規範化流程是必不可少的一部分。所以,我們會看到同業中很多運維團隊在階段性的。

為了推動規範化的落地,可以考慮建立“制度、標準、規程、時序”四級的機制。其中,制度重點關注行業、企業通用性的規範對於配置管理的要求。技術標準重點關注對制度進行分解,形成具體指導落地的配置管理與技術規範要求,重點關注角色、職責、協同、例行化工作等。規程是為了應對流程的迭代效率引入的流程管理要求,因為運維是高度強調覆盤文化的組織,且對於覆盤中發現的協同、操作等流程問題,以及工具平臺、場景設計等技術問題,需要保持快速的迭代,防止問題的重複出現。CMDB資料治理規程的上線與修訂需要保持高度的敏捷,來源可能是領導對於IT資產管理的一個臨時決策,可能是事件覆盤發現的配置問題,可能是合規檢查發現的配置問題,也可能是某個資料消費場景發現的問題。當規程的執行步驟能夠原子化為一個重複的資料操作或自動化指令碼執行時,則要獨立出來形成自動化時序。

3.資料融合

CMDB的資料治理是一個問題發現、問題修正、修正複核、“漏洞”最佳化的過程,整個過程需要對配置資料、機器執行資料、流程協同資料進行融合。一方面,單獨的IT資產配置資料在很多場景下無法判斷資料是否正確,關聯資料能夠還能夠讓配置資料質量問題的可解釋性更好;另一方面,資料質量問題任務是否完成,應該儘量由資料本身自動化複核來關閉;同時,配置資料消費場景也需要結合其他資料。

在技術實現上,可以考慮在CMDB、執行資料、流程協同之上建立一份資料融合後的配置治理主題資料。基於配置問題的時序策略可以直接從這份標準化的主題資料中,採用無程式碼的方式配置出具體的任務與任務完成的複核。

4.場景驅動

CMDB資料質量問題任務的儘快修正一直都是配置治理運營的難題。很多同業都提到 執行治理任務專崗對配置問題的修正重視程度不高。為了落實任務的處理,可以採用專項運動式活動與常態性工作結合的運營方式。技術治理場景是專項運動式活動的一種落地方式,技術治理場景藉助管理要求,在短期內能夠讓各職能團隊更容易接受,且能夠吸引管理決策層的注意,更有利於治理工作的落地。同時,技術治理場景在設計上,是基於價值驅動,能夠讓瑣碎的資料治理工作聚焦到一個主題,讓治理成效最大化,並透過數字化績效形式表達出來。比如:

基於主機效能管理的FinOps運營場景,在價值上推動了IT資產成本最佳化過程中, 可以將主機未按要求關聯絡統,主機未及時下架等問題挖掘出來,在配置質量上最佳化了IT資產配置縱向部署關係的配置治理;

基於主機時鐘源、重啟時間、過保時間、單電源等風險管理場景,在價值上推動了穩定性風險的防範過程中,可以將自發現代理問題、叢集型別屬性等配置問題挖掘出來。

基於系統上下游關係的應急、變更協同管理場景上,在價值上推動了協同的自動化,在提升協同效率過程中,可以將系統上下游關係有誤、角色未保鮮等問題挖掘出來。

以技術治理場景為切入點與常態性資料質量問題任務,在實現思維上有一些區別。其中,技術治理場景認為“資料是對的”,場景分析對應到的負責人看到資料反映其技術管理成效低下,會驅動負責人主動去修正。常態性化資料質量問題任務是直接告訴資料責任方資料是錯的,不修正會“考核”你。總的來說,技術治理場景基於成效的價值驅動,在某些時候,能夠形成自驅性的資料質量最佳化,促進落地效率,推動配置資料保鮮。

5.閉環運營

一項成功的工作機制應該是能夠形成閉環,並驅動持續最佳化。

CMDB資料治理是一項瑣碎的資料探勘的工作,需要利用一些連線工具把瑣碎的事串起來。ChatOps、任務就是協同的連線利器。以ChatOps為例,ChatOps具備很多連線優點,比如:

企業IM是使用者高頻使用的協同工作空間;

ChatOps精準地觸達到具體的人;

協同群具備極為扁平的協同能力;

協同群聊有公示作用,驅動治理工作落地“卷”起來;

協同群聊能夠更好建立線上的升級;

具有專項工作屬性的群提升效同效率;

ChatOps機器人能夠代替人做自動化的工作;

機器人驅動的人機協同,簡化員工溝通上的工作(很多技術工程師不太願意做太多溝通性的工作)。

技術運營離不開配套的數字化看板及專項報告。其中,數字化看板關注實時的資料分析,專項報告關注某項技術治理場景的工作成效。在設計技術運營數字化內容時,可以考慮關注以下幾點:

使用者想看的資訊:要明確看板與報告的使用者是誰,不建議做一個適用於所有角色的報告,設計能夠解決使用者痛點與期望的資料洞察。

你想使用者看到的資訊:這類資料未必是使用者自己想看到的,但是技術運營方出於運營目的要表達出來的資訊,通常可以從表現“不好情況”的問題資料,比如按成效低下排TOP幾。

你想表現出的成效資訊:要讓專項工作的人有成就感,或爭取更多資源,需要將工作成效表現出來,比如最終的效果資料,或持續獲取的效果變化均可。

另外,針對經常出現使用者看不懂看板資料的問題,在設計上,可以參考在用PPT講故事的形式,設計一個多頁看板的內容順序套路:概況、技術治理資訊1、技術治理資訊2、技術治理N、技術治理成效。

最後,自己要把技術運營當回事,持續的、主動的將技術運營的資訊精準的觸達到人,並在一些公開場合用數字化方式表達出來。

來自 “ twt企業IT社群 ”, 原文作者:彭華盛;原文連結:https://mp.weixin.qq.com/s/act_FbpNBoTB5OZV8Rxpdg,如有侵權,請聯絡管理員刪除。

相關文章