滴滴夜鶯 Nightingale 釋出 v3 版本,從運維監控演化成了運維平臺

UlricQin發表於2020-10-08

Nightingale從 3 月份開源到現在,過去了半年多點時間,收穫了接近 2000 個 github star,300 多個 issue,感謝各位業界同仁的關注和社群參與。

經過慎重考慮,我們決定把商業版本中的更多功能拿出來開源,組成一個輕量級運維平臺,這塊業界的開源解決方案較少,我們希望貢獻一份自己的力量。除了已有的監控告警的能力,又引入瞭如下功能模組:

  • 使用者資源中心:提供完備的使用者資訊管理、組織結構管理、組織許可權管理、組織資源管理、操作審計日誌等,裡邊最重要的是組織許可權管理,後面各公司如果要做自己的運維平臺功能模組,就可以接入這個通用的許可權體系,非常方便。組織資源管理也很重要,各類 IaaS、PaaS 層的資源都可以掛到這棵組織資源樹上,各產品專案組,就可以一目瞭然看到我這個專案用了多少資源,各個資源的監控健康狀況。
  • 資產管理系統:這部分開源了主機裝置管理部分,相對比較簡陋,希望業界同仁能夠一起完善。
  • 任務執行中心:開源了最核心的命令執行通道,提供去一批機器批量執行命令的能力,可以用在機器初始化的場景、服務變更釋出的場景、小規模檔案分發的場景。是個類似 saltstack、ansible 的功能,不過效能會更好,會更成體系化,比如許可權部分會和使用者資源中心打通,可以控制不同的人對不同的機器有不同的賬號執行許可權。

另外監控部分也有增強,監控大盤增加了更多的圖表型別,告警函式增加了同環比告警、3-sigma 離群點檢測等,另外監控策略可以和任務執行中心打通,做到在某個告警發出的時候自動觸發某個指令碼的執行,這個我們稱為初級故障自愈,後面會錄製視訊講解用法,歡迎關注我的微信公眾號:ops-soldier 獲取第一手教程資料

更多原創文章乾貨分享,請關注公眾號
  • 滴滴夜鶯 Nightingale 釋出 v3 版本,從運維監控演化成了運維平臺
  • 加微信實戰群請加微信(註明:實戰群):gocnio

相關文章