雲端儲存系統監控服務分析

清宵發表於2016-04-21
      監控在我們的日常生活和生產隨處可見,交通、銀行、超市、商場、學校、工廠等等,在刑偵、勘探、科研、安保等各種領域,發揮了越來越大的作用,已經成為人們不可或缺的安全屏障和有力工具。
      監控對於計算機網路同樣有著巨大的意義和價值,從伺服器效能到應用服務狀態,從硬體資源到網路流量,為業務應用、系統運維等提供準確的執行狀態資訊,及時發現、暴露問題。

      OSS作為智慧分散式雲端儲存系統,對外提供海量、安全和高可靠的儲存服務,使得使用者無需關心繫統資源和伺服器運維問題,將更多的精力專注於業務和應用層級等上層建設。隨著業務量日漸龐大,使用者對OSS系統服務質量的要求在日益提高。既然如此,除了提供基本的儲存服務之外,我們還能為依賴我們的使用者做點什麼,能讓他們實時地瞭解自己購買的服務狀態以及業務的使用情況,並且能夠及時的發現問題、診斷問題和解決問題呢?所謂“運籌帷幄之中,決勝千里之外”,我們不僅僅自己需要做到這一點,更要幫助使用者達到這一點!
       所以,為了幫助使用者更好的使用OSS,直觀地顯示資源使用、服務質量等資訊,讓使用者能夠對系統、業務狀況作出及時應對、保證業務健康執行,監控報警服務迫在眉睫!!

使用者關心什麼?

     使用者使用雲服務,或者更通俗的說,使用者花錢買服務,關注的本質資訊只有兩個:費用和服務質量。
     比如,使用者業務突然故障,如何讓其很快地定位是業務使用問題還是OSS系統故障?再比如,有什麼直觀的方式能夠讓使用者評估OSS系統的效能情況,是否滿業務在峰值時的實時性需求?再比如,如何讓使用者對自己的消費行為有準確的預估,方便做出財務成本預算?
     如何滿足使用者痛點,如何能夠使使用者最為關心的資訊以最低的成本,簡明扼要的展現在使用者面前,是我們第一優先順序要解決的問題。
   

雲端儲存監控服務現狀

     目前OSS監控提供了3類的監控指標資料:

  1.  使用者計量資料指標: 
    • 儲存空間
    • 使用流量:使用流量:公網流出、公網流入,內網流出、內網流入,CDN流出、CDN流入,跨域複製流出、跨域複製流入
    • 計量請求數:PUT類請求數、GET類請求數
  2. 使用者服務質量指標:  
    • 內部錯誤數
  3. 使用者業務統計指標:  (相關指標詳細說明請見OSS官網控制檯)
    • object熱點統計
    • 地域統計
    • ISP統計
    • IP統計
    • Referer統計
    • 搜尋引擎統計
    • 鑑權相關統計

     其中,使用者計量資料指標反映使用者bucket層面的資源使用狀況和計量資訊;使用者服務質量指標反映OSS系統穩定性以及使用者的使用狀態;而使用者業務統計指標則是根據使用者業務狀態提供一些業務層面的統計資料。
     使用者計量資料指標和使用者服務質量指標是以1小時的時間粒度展示,而使用者業務統計指標以天為統計粒度展示。
     這些統計指標雖能夠在一定層面上給使用者提供資訊,但是在實時性、報警通知機制、效能資訊需求、業務實時狀態等方面還是欠缺的,沒有一套完整的監控metric機制和服務體系。

     所以,我們一直在努力改變!

解決方案

  • 明確監控物件資訊,設計完整的監控metric是設計監控報警系統的基礎核心

     從前面分析使用者痛點獲悉,需要被監控的物件是服務質量和消費情況。服務質量主要反映在使用者請求行為和系統效能表現中,而使用者的消費情況可以使用系統的計量資訊集中體現。所以,可以按照基礎資訊、效能資訊和計量資訊對我們的監控資訊進行分類。

基礎資訊

      基礎資訊主要包含了使用者請求數、使用者流量、伺服器錯誤和客戶端錯誤。目的是讓使用者能快速判斷服務的負載和健康程度。

  • 使用者請求數:該指標資訊體現了系統的負載情況。
  • 使用者流量:流量體現了使用者請求佔用的網路資源情況,同樣反映了系統負載。
  • 伺服器錯誤:OSS內部系統錯誤,反映系統的穩定性和服務能力。
  • 客戶端錯誤:由使用者錯誤使用造成的錯誤。

      請求錯誤需要區分系統錯誤和使用者錯誤。雖然使用者錯誤和OSS服務無關,但是影響了使用者的業務,也需要呈現給使用者。當使用者發現錯誤請求數不符合預期時,肯定希望能夠進一步調查錯誤原因,此時如果將錯誤的請求按照一定的狀態或者錯誤碼進行分類統計,並且給出對應的操作行為,就能夠為使用者定位、排查問題起到關鍵作用。因此我們可以依據常見的HTTP狀態碼和OSS的錯誤碼對錯誤請求進行歸類,並且統計。

效能資訊

      請求延時是衡量系統效能的重要指標。所以實時的延時資訊監控和毛刺狀態對使用者評估業務需求和服務效能至關重要。而且請求延時包含網路延時和伺服器延時兩大部分,通過監控E2E(端到端)延時和伺服器延時,能夠快速幫助使用者定位效能問題。

計量資訊

      費用是使用者關注的重要資訊。而OSS計費方式的均按照階梯形式進行,按自然月累計,所以計量的當月消費資訊展現肯定是以月為粒度統計相關的計量資料。我們會為使用者呈現實時和本月已消費這兩種計量資訊,幫助使用者實時監控消費狀況和預估消費趨勢。
      OSS的計量資訊分為3類:儲存大小、網際網路下行流量和有效請求數。因為計量賬單以小時為單位輸出,所以,計量資訊的實時展現也以小時為粒度。

其他監控資訊

      當然,因為使用者使用服務的業務模式不同,對服務介面的呼叫方式也不同。每個使用者都有自己關心的更細粒度上的API請求情況以及效能情況,所以我們也可以從更細粒度上監控相關資訊,如,根據API分類統計請求數和效能情況。
      結合以上的監控資訊,再通過更細粒度的收集API層面的監控資訊,能為使用者提供更有針對性的業務監控依據。

  • 利用專業的監控報警服務平臺——阿里雲監控服務,整合其成熟穩定的設計架構、全面完善的服務機制

       目前,雲監控是阿里雲對外提供的、能針對資源和網際網路應用提供監控服務的產品,同時具有對部分雲產品的監控功能。所以,OSS監控報警服務納入到雲監控體系中,能讓使用者更好地構建業務驅動的、跨多個阿里雲服務的監控報警體系。

高實時性

       監控報警的及時性取決於資料採集、分析和儲存的頻率。更高的頻率意味著更多的資源投入與技術難度。為了滿足客戶的實時性需求,我們採用分鐘級別的聚合粒度反映業務指標,保障服務質量!

報警服務

      除了讓使用者能夠直觀的檢視監控資訊,還應該為使用者提供及時的通知機制,這就少不了報警服務,報警和監控休慼相關。
      對報警的要求簡言之:準確、及時。
      如何做到準確?依賴於對業務模型的準確分析和報警規則的靈活設定。對於有明顯閾值的業務資料,採用閾值規則;對於有明顯週期性的業務資料,採用環比規則。另外,準確不僅僅指能抓住資料特徵,更需要過濾無效資訊防止騷擾和誤判,因此,連續的滿足報警規則的需求也至關重要,能夠排除業務資料不穩定導致的誤判。
      如何做到及時?依賴於報警資料取樣的實時性和通知機制的多樣性。我們實時監控系統的延時和聚合都能在分鐘級別,保證在故障突發時能通知使用者及時採取相關錯誤。另外,根據不同的優先順序設定不同的通知機制,如按照優先順序可以分為簡訊、旺旺和郵件,儘量使得緊急事件能第一事件被通知到負責人。

OpenAPI監控資料訪問

      提供阿里雲OpenAPI,讓使用者能夠通過SDK查詢監控資料,基於自身業務邏輯進行監控、報警或者其他更精確的業務資料分析。

結束語

      OSS監控服務即將上線,敬請期待!
      有任何需求或者建議,請聯絡我,很高興能和大家進行需求交流和技術探討!

——————————————————分隔符———————————————————–


誠聘英才


阿里雲函式服務是一個全新的,支援事件驅動程式設計模式的計算服務。 他幫助使用者聚焦自身業務邏輯,以Serverless的方式構建應用,快速的實現低成本,可擴充套件,高可用的系統,而無需考慮伺服器等底層基礎設施的管理。 使用者能夠快速的建立原型,同樣的架構能隨業務規模平滑伸縮。讓計算變得更高效,更經濟,更彈性,更可靠。無論小型創業公司,還是大型企業,都受益其中。

我們的團隊正在迅速擴張,求賢若渴。我們想尋找這樣的隊友:

  • 基本功紮實。既能閱讀論文追蹤業界趨勢,又能快速編碼解決實際問題。
  • 嚴謹的,系統化的思維能力。既能整體考慮業務機會,系統架構,運維成本等諸多因素,又能掌控設計/開發/測試/釋出的完整流程,預判並控制風險。
  • 好奇心和使命感驅動。樂於探索未知領域,不僅是夢想家,也是踐行者。
  • 堅韌、樂觀、自信。能在壓力和困難中看到機會,讓工作充滿樂趣!

如果您對雲端計算充滿熱情,想要構建一個有影響力計算平臺和生態體系,請加入我們,和我們一起實現夢想! 

詳見:http://www.atatech.org/articles/53851

將你的簡歷傳送到shuting.yst@alibaba-inc.com,標題  應聘阿里雲-姓名

如果你有自己的git地址或者個人部落格,將會大大加分哦,一起在郵件中發給我吧~~~





相關文章