OpsRamp推出以服務為中心的AIOps和雲監控功能

weixin_33763244發表於2019-02-14

OpsRamp是一個面向混合企業的以服務為中心的AIOps軟體即服務(SaaS)平臺,最近釋出了新的拓撲圖、增強的人工智慧IT運維(AIOps)功能以及針對雲原生工作負載的監控功能。

新版的OpsRamp平臺為現代IT運營管理團隊提供了Kubernetes監控、智慧警報路由和拓撲圖。它為混合基礎設施監控和管理提供了更強大的以服務為中心的環境,讓企業IT團隊能夠採用更智慧的事件管理機制,並提供卓越的使用者體驗。

OpsRamp產品管理副總裁Mahesh Ramachandran將“以服務為中心”定義為:

以服務為中心的觀點將數字運營團隊的重心從管理元素轉移到管理業務服務。OpsRamp AIOps解決方案旨在通過更快的補救和事件響應來滿足服務可用性和效能需求。這樣可以幫助IT組織將基礎設施環境從一系列裝置、資源和配置重新構建為一系列業務服務,我們認為這些服務更易於管理。它還將傳統IT、DevOps和業務目標整合並統一為一個共同願景。IT像業務一樣思考其所需的資源——以服務為核心。

新版本提供了影響可見性和服務上下文功能,可發現混合雲和多雲IT技術棧中多級資源之間的拓撲關係。拓撲圖旨在幫助基礎設施和運營團隊瞭解IT資源對彼此以及面向終端使用者的IT服務的影響。OpsRamp的拓撲發現功能現在可用於應用程式和hypervisor。應用程式拓撲功能可發現40多種流行的企業應用程式,並在應用程式元件和基礎設施之間建立拓撲關係。hypervisor拓撲功能可發現VMware vSphere和KVM環境中的虛擬機器、hypervisor伺服器和叢集以及它們之間的關係。

OpsRamp還增強了服務地圖功能,提供了新的使用者介面,可以識別IT服務中斷背後的底層資源,讓運營團隊制定正確的恢復服務行動方案。新版本引入了一些新功能,包括自動事件建立和路由、推理模型的增強訓練和頻率驅動的警報升級。

OpsRamp的OpsQ現在可以使用警報升級策略進行自動事件建立和路由,根據之前的警報、事件和通知資料自動分配事件。機器學習驅動的警報升級使用特定的學習模式(受讓人組、業務影響、緊急程度和優先順序)為不同型別的警報路由事件分配。OpsRamp的基於機器學習的推理模型使用歷史警報資料關聯由常見原因引起的警報。OpsQ現在允許使用使用者提供的訓練資料來增強這些模型。通過這種增強訓練,IT運營團隊可以引導OpsQ識別日常運營中不常見的警報序列,當發生警報時能夠識別出來。要增強模型,使用者可以構建電子表格(或使用示例模板),使用預定義的資料(解析器組、類別、子類別、優先順序、緊急程度和業務影響)將事件升級到服務管理。然後將這些資料應用於OpsRamp的事件管理工具和第三方事件管理整合。

OpsQ支援新的策略,比如根據最近發生警報的頻率來升級警報。運營團隊因此可以過濾掉只是偶爾會發生的警報,並升級反覆發生的警報。OpsRamp平臺提供了多雲事件監控功能,以及發現和監控支援現代微服務架構的容器基礎設施的功能。

OpsRamp現在可以在本地和雲端(例如Azure Kubernetes Services、Google Kubernetes Engine和Amazon Elastic Container Service for Kubernetes)發現和監控Kubernetes環境。DevOps團隊可以瞭解每個Kubernetes叢集的總服務(每個叢集的節點和容器、按名稱空間劃分的pod)和資源趨勢(CPU和記憶體利用)。使用者可以監控與叢集、主機、NameSpaces、pod和容器的可用性和效能相關的關鍵指標。在公共雲中,事件是重要的運維問題通訊媒介,而在多雲環境中,事件是訊號的主要來源。OpsRamp現在可以從AWS服務(如AWS Health、ECS、Redshift、資料遷移服務和CloudWatch)收集、聚合、關聯和升級事件。有了這個功能,OpsRamp可以對跨多個雲帳戶的雲事件進行單點監控、管理和修復。

新的OpsRamp版本還提供了包含補丁合規性驗證的補丁管理功能、綜合事務和SSL證書監控、用於監控開源應用程式的整合,以及簡化分類和連結的知識庫增強。

檢視英文原文https://www.infoq.com/news/2019/02/opsramp-service-centricity-aiops

相關文章