機器學習驅動的全新運營服務為提高應用程式可用性提供定製化

北京-202012月7日,今天,在亞馬遜雲服務(AWS)舉辦的年度盛會——AWS re:Invent上,AWS宣佈了完全託管的運營服務Amazon DevOps Guru。利用機器學習技術,這一服務可以幫助開發人員通過自動檢測操作問題和建議補救措施來提高應用程式可用性。Amazon DevOps Guru應用了支援Amazon.com和AWS卓越運營多年的機器學習技術,通過自動收集和分析應用程式指標、日誌、事件和痕跡等資料,識別偏離正常操作模式的行為(例如,計算能力配置不足、資料庫 I/O過度使用、記憶體洩漏等)。當Amazon DevOps Guru識別出可能導致服務中斷的異常應用程式行為(例如,延遲、錯誤率和資源限制等增加)時,它將向開發人員發出問題詳細資訊(例如,涉及的資源、問題時間表和相關事件等),並通過Amazon Simple Notification Service(SNS)以及Atlassian Opsgenie和PagerDuty等合作伙伴整合服務來幫助開發人員快速瞭解問題的潛在影響和可能原因,並提出具體的修復建議。開發人員可以使用Amazon DevOps Guru的修復建議來減少問題修復時間,無需手動設定或機器學習專業知識即可提高應用程式的可用性和可靠性。 Amazon DevOps Guru沒有前期成本或承諾,客戶只需為Amazon DevOps Guru分析的資料付費。訪問https://aws.amazon.com/DevOps Guru即可開始使用Amazon DevOps Guru。

為了擺脫本地部署的限制並向全球擴充套件業務運營,越來越多的組織開始轉向基於雲的應用程式部署和微服務架構,這也導致應用程式為滿足客戶需求而變得越來越分散。開發人員需要更多的自動化方式來維護應用程式的可用性,減少花費在檢測、除錯和解決運營問題上的時間和精力。錯誤的程式碼或配置更改、不平衡的容器叢集或CPU、記憶體、磁碟等資源耗盡帶來的應用程式當機事件將不可避免地導致不良客戶體驗和收入損失。企業需要花費大量資金和開發人員時間來部署多個監測工具,而這些監測工具通常是分開管理的,並且必須針對負載平衡器錯誤或應用程式請求率下降等常見問題開發和維護自定義警報。對於希望通過設定閾值以識別和警告應用程式資源異常狀況的企業來說,不僅很難設定準確的閾值,涉及諸多手動操作,並且要求閾值必須隨著應用程式使用情況的變化而不斷更新(例如,在假日購物季時突增大量請求)。如果閾值設定得太高,開發人員在運營效能已經嚴重受損前無法收到警報。當閾值設定得太低時,開發人員則可能得到過多誤報並最終忽略警報。即使開發人員對潛在的操作問題已經有所警覺,仍然很難尋找和確認問題根源。使用現有工具,開發人員通常很難從圖形和警報中確定問題根源,而即使找到根本原因,也往往無法解決問題。每次故障排除都是冷啟動,團隊必須花費數小時或數天來識別問題,這種工作既耗時又繁瑣,從而減緩了解決操作故障的時間,並可能延長應用程式的中斷時間。

Amazon DevOps Guru的機器學習模型採用了亞馬遜過去20多年為Amazon.com構建、擴充套件和維護高可用應用程式的運營專業知識。這使Amazon DevOps Guru能夠自動檢測運營故障(例如,警報遺漏或配置錯誤,資源耗盡的早期警告,可能導致停機的配置更改等),提供有關資源和相關事件的背景,並建議補救措施,而無需開發人員具備任何機器學習經驗。開發人員只需在Amazon DevOps Guru控制檯中單擊幾下,即可自動提取和分析所有資源的歷史應用程式和延遲、錯誤率、請求率等基礎架構指標,以建立操作基線,然後Amazon DevOps Guru就可以開始通過預先訓練的機器學習模型識別與既定基線的偏差。當Amazon DevOps Guru分析系統和應用程式資料以自動檢測異常時,它還將這些資料分組為運營洞察,包括異常指標、隨著時間的推移對應用程式行為視覺化、以及有關補救措施的建議。 Amazon DevOps Guru還將相關的應用程式和基礎架構指標(例如Web應用程式延遲峰值、磁碟空間用盡、錯誤的程式碼部署、記憶體洩漏等)相關聯並進行分組,以減少冗餘警報並幫助使用者關注高嚴重性問題。客戶可以通過檢視配置更改歷史記錄、部署事件以及系統和使用者活動,以在Amazon DevOps Guru控制檯中生成需要優先關注的潛在操作問題事件列表。為了幫助客戶快速解決問題,Amazon DevOps Guru提供了具有補救步驟的智慧建議,並與AWS Systems Manager整合執行手冊和協作工具,使客戶能夠更有效地維護應用程式並管理其部署的基礎架構。 Amazon DevOps Guru與Amazon CodeGuru(機器學習支援的開發人員工具,可提供智慧建議以提高程式碼質量並識別應用程式中最昂貴的程式碼行)一起,使客戶可以針對其運算元據使用自動化機器學習技術,幫助開發人員輕鬆提高應用程式的可用性和可靠性。

負責亞馬遜機器學習的AWS副總裁Swami Sivasubramanian表示:“客戶希望AWS繼續在我們可以運用自己的專業知識來提高應用程式可用性的領域中增加服務,並從Amazon.com的多年運營經驗中學習。藉助Amazon DevOps Guru,我們利用亞馬遜過往的經驗建立了專門的機器學習模型,幫助客戶檢測、排除故障並防止操作問題,並在出現問題時提供智慧化建議。這使得客戶可以立即從亞馬遜在運營Amazon.com中學到的最佳操作實踐中受益,節省配置和管理多個監測系統上所花費的時間和精力。”

只需在AWS管理控制檯中單擊幾下,客戶就可以在數分鐘內開始使用Amazon DevOps Guru分析賬戶和應用程式活動,提供運營見解。 Amazon DevOps Guru通過彙總AWS CloudTrail、Amazon CloudWatch、AWS Config、AWS CloudFormation、AWS X-Ray等多個來源中的相關資料,讓客戶可以通過一個控制檯視覺化其運營資料,減少了在多種工具之間切換的需要。客戶還可以在Amazon DevOps Guru控制檯中檢視相關的運營事件和資料以獲得運營見解,並通過Amazon SNS接收警報。此外,Amazon DevOps Guru通過AWS軟體開發工具包(AWS SDK)支援API終端節點,使合作伙伴和客戶可以輕鬆地將Amazon DevOps Guru整合到其現有解決方案中,以針對高嚴重性問題提交故障單、分級並自動通知工程師。 PagerDuty和Atlassian已將Amazon DevOps Guru整合到其運營監控和事件管理平臺中,使用其解決方案的客戶現在可以從Amazon DevOps Guru提供的運營見解中受益。 Amazon DevOps Guru現已在美國東部(北弗吉尼亞)區域、美國東部(俄亥俄)區域、美國西部(俄勒岡)區域、亞太(新加坡)區域和歐洲(愛爾蘭)區域進行預覽,並將在未來幾個月中在其它地區推出。

超過170,000個企業依靠Atlassian產品來簡化團隊合作,組織、討論和完成工作。 Opsgenie產品負責人Emel Dogrusoz表示:“Atlassian很榮幸能與AWS就Amazon DevOps Guru推出達成合作,幫助更多開發團隊部署程式碼和運營服務。通過與Opsgenie和Jira Service Management整合,Amazon DevOps Guru可以在預測到潛在問題或確定事件發生時立即通知相關團隊。Amazon DevOps Guru提供了新的洞察力,而Atlassian確保了最快的響應速度。”

PagerDuty,Inc. (NYSE: PD) 是數字運營管理的領導者。PagerDuty產品副總裁Jonathan Rende表示:“PagerDuty致力於通過全生命週期事件自動化響應來推動向DevOps文化的轉變。我們很高興能夠通過與Amazon DevOps Guru的整合來繼續深化對DevOps的承諾。 藉助亞馬遜數十年來的卓越運營經驗和Amazon DevOps Guru的機器學習功能,PagerDuty為我們的共同客戶提供了更多的實時訊號到響應功能。通過PagerDuty提取的Amazon DevOps Guru的Amazon SNS,AWS客戶可以在運營事件影響使用者服務中斷之前對其採取實時行動。”

湯森路透是全球最受信賴的資訊和資訊提供商,幫助專業人士做出自信的決定並更好的經營業務。湯姆森路透基礎設施託管業務主管史蒂夫·索恩斯說:“客戶體驗對我們至關重要。在試圖防止和減輕影響客戶的事件時,處理可用性、效能和變更請求的多種警報可能是一個挑戰。我們很高興能夠使用Amazon DevOps Guru並利用其機器學習見解為快速解決問題並避免影響客戶的事件提供清晰路徑。這一服務與PagerDuty的整合則可以幫助我們將Amazon DevOps Guru提供的問題解決建議及時有效地交付給正確的團隊。”

SmugMug是一個提供付費的圖片共享和託管服務及線上視訊的平臺,使用者可以在該平臺上傳照片和視訊。 該公司為業餘和專業攝影師促進數字化和印刷作品的銷售。 SmugMug運營總監Andrew Shieh說:“我的團隊一直在尋找讓手動工作自動化的方法。我們希望能夠通過Amazon DevOps Guru實現這一目標,讓AIOps接管我們的許多日常任務,簡化日常運營,從而專注於IT創新。現在,我們不僅滿足了業務需求,而且能夠超出業務預期,因為我們有更多時間專注於最重要的事情——為我們的組織和客戶創造價值。”