覆盤阿里雲故障,除了罵,還能做些什麼?
分享技術,傳播正能量。
很多朋友經歷了上次阿里雲3小時左右的故障,我司的業務也受到了一定影響,技術的同事一起熬夜奮戰,最終觀察服務穩定執行了兩個多小時,直到凌晨五六點多才逐漸登出VPN。
一次事故如一場戰役,不管是在故障過程中的處理,還是故障後的總結,除了罵阿里雲,我們自己有沒有可以改進的空間呢?結合我司昨夜的處理過程,說一下自己的一點想法。
畫外音:技術人,還是聊技術,決定不了別人,我們做好自己。
一
凌晨,收到運維負責人的電話,阿里雲部分機房故障,並從阿里雲同事收到反饋,問題仍在定位,恢復時間不確認。
畫外音:關鍵時刻,手機欠費了,運維負責人還幫我充了200話費,才打通,真曲折。
整個過程中,我們能做什麼呢?
1. 第一時間反饋業務方:例如客服,運營等,如果收到使用者反饋,能夠及時說明情況;
2. 確定影響範圍:因為不是所有伺服器都受影響,確定範圍後好針對性檢查;
這裡面,潛在的技術問題是:
1. 運維在第一時間收到伺服器告警了麼,研發與測試在第一時間收到站點與服務告警了麼?為什麼沒有收到,是沒有告警,還是告警覆蓋缺失?
畫外音:如果讓業務方先發現問題,反問技術部,服務怎麼出問題了,是何等尷尬?
2. 能夠快速確定受影響的伺服器IP麼?以及受影響的業務範圍麼?
我們的運維同學立刻透過指令碼,確定了大概有50來臺伺服器受影響。
DBA同學也立刻確認了,RDS資料庫服務沒有受到影響。
畫外音:
(1)未來要自動化,視覺化;
(2)除了能從前端發現A、B、C功能不可用,能從後端精準確定哪些服務,多大比例的流量受影響麼?
潛在的非技術問題:
1. 技術團隊和業務方建立了反饋渠道麼,溝通是否順暢?
2. 有沒有“線上服務第一”的意識,有沒有“系統值班”的制度,還是說,關著手機睡覺?
畫外音:
(1)昨晚絕大多數二級,三級部門負責人都第一時間投入戰鬥,很贊;
(2)技術人,關著手機睡覺,是不可接受的。
二
過了一個多小時了,阿里雲仍未反饋修復時間,這個時間大家都有點著急了,那除了乾等著,我們自己能做些什麼呢?
因為只有部分割槽域的伺服器異常,能不能申請一些新的伺服器,將受影響伺服器上的站點與服務重新部署,透過服務治理將流量切到新的服務上,是不是能恢復(至少部分恢復)呢?
整個過程中,我們能做的是:
1. 申請新伺服器;
2. 確認受影響的站點與服務、重新部署;
3. 服務治理,將流量遷移;
這裡面,潛在的技術問題是:
1. 能不能快速進行伺服器擴容;
畫外音:昨晚我們迅猛購買了50臺ECS,這是雲的好處。
2. 知道了受影響的伺服器IP,如何能夠快速確定這些IP上部署了哪些站點與服務?這些站點與服務的上下游是什麼,連帶影響範圍是什麼?
畫外音:這是有待提高的地方,每個負責人都知道自己的IP上部署了什麼,但並不視覺化。
3. 如何快速站點與服務擴容與縮容,如何服務發現,如何遷移流量?
畫外音:服務治理,任重道遠。
三
又過了大概半個小時,我們購買完伺服器,梳理站點與服務的過程中,阿里雲專家反饋,“問題定位有了關鍵進展,不出意外的話30分鐘恢復”。此時我們內部評估,30分鐘50臺ECS的初始化,服務部署,流量遷移恐怕完不成,還是等阿里雲好了。
果真大概半個小時,阿里雲專家反饋恢復了,這時我們要做的:
1. 確定站點與服務是否執行;
2. 確定日誌是否異常;
3. 確定業務線上業務是否異常;
4. 一些容易遺漏的點的再三檢查:例如MQ的消費,定時任務的執行。
畫外音:有些定時任務可能需要手動再次執行。
這裡面的很多工作,是透過手工,還是指令碼自動化,還是平臺視覺化來判斷與執行?技術平臺的迭代,仍重而道遠。
四
服務觀察穩定後一段時機,大部分技術同學陸陸續續登出VPN下線了。朋友圈、微博上開始對阿里雲進行聲討,都在提自己的最佳化方案:
1. 是時候換一個雲了;
換一個雲能解決問題麼?用其他雲的朋友,可以評論反饋下故障頻率。
我相信,各家有各家的問題,我甚至願意相信,阿里雲的故障率是相對較低的。
2. 是時候自建機房了;
自建機房能解決問題麼?自建機房的朋友,可以評論反饋下故障頻率。
說實話,讓我自建機房,我目前真沒有信心做得比阿里雲更好。
3. 是時候多機房多活了;
“多機房多活”不是四個字這麼簡單,需要多大的成本,需要多少技術基礎服務支撐,需要多大的架構改造,有考慮過麼?
畫外音:58同城15年做機房遷移時做過多機房多活,我還算有一定發言權。
我相信,目前99.9%的公司,目前的業務階段,目前的投入產出比,不適合做多機房多活。
罵阿里雲不解決問題,這次事故過程中發現的自身的問題,我們要繼續去改進。
特別是服務治理體系,視覺化監控與運維體系,任重而道遠。
不為阿里雲洗地,阿里雲你影響了我們幾個小時業務可用性,該陪的要賠,儘量加倍賠,讓我們看到你的誠意。
畫外音:誰有XX雲的介面人聯絡方式,請小窗我一下。
末了,讓我特別感動的一點,還是一起熬夜奮戰的兄弟姐妹們。早晨,還有部分同學趕去公司,要把運營反饋的不一致資料,進行修正。
我相信,因為有你們,業務一定能做成。
我相信,大家的付出老闆一定看得到,3/4月份的漲薪一定有你。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556838/viewspace-2639056/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 這一次,除了罵阿里雲,還能做些什麼?阿里
- [轉載] 新時代網路營銷 除了謾罵還能做什麼
- 我能為開源做些什麼?
- 又被揍了,中興事件除了憤怒還能幹點什麼?事件
- 除了“好玩”,電子遊戲還能為我們帶來什麼?遊戲
- 微信機器人能夠做些什麼事?機器人
- 除了高薪和漂亮姑娘還能拿什麼吸引程式設計師高薪程式設計師
- 刪庫後,除了跑路還能怎麼辦?
- 企業BI智慧大屏,除了頁面炫酷,還能帶來什麼?
- 5G支援下,人工智慧除了AI換臉,還能幹什麼?人工智慧AI
- 推薦那麼準,除了模型,還有什麼。。。模型
- OA辦公系統能幫助企業做些什麼?
- 數字化重建巴黎聖母院,AI還能為人類文明遺產做些什麼?AI
- 除了敲程式碼,你還有什麼副業嗎?
- 除了Firefox 我們為什麼還需要Mozilla?Firefox
- 人工智慧和機器學習能為抗擊新冠肺炎做些什麼?人工智慧機器學習
- U盤裡的檔案刪除了還能恢復嗎?不看別後悔
- 除了 filter 還有什麼置灰網站的方式?Filter網站
- 除了用於銷售還能做什麼,CRM系統?
- 從阿里雲故障說 Io hang 是什麼?阿里
- 徐玉玉案宣判了,反思大資料能夠做些什麼!大資料
- 2015年度大公司盤點之網易:除了遊戲,還準備了些什麼?遊戲
- 我用 Python 做些什麼?Python
- 除了《影子詭局》,即時戰術RTT遊戲還能怎麼玩?遊戲
- 覆盤《The Last of Us Part 2》為什麼失敗AST
- 阿里雲盤憑什麼敢不限速阿里
- 為什麼 OAuth 裡除了 Access Token 之外,還需要 Refresh Token?OAuth
- 何謂機器學習 機器學習能做些什麼?機器學習
- oracle 諮詢工作做些什麼啊Oracle
- 除了影片分析,人工智慧和機器學習還有什麼好處?人工智慧機器學習
- 2019 我們除了Android還可以學什麼?Android
- 除了汽車,自動駕駛還將顛覆這33個行業……自動駕駛行業
- 一週下架近8000款遊戲 除了開滴滴還能怎麼做?遊戲
- Python除了人工智慧,還能從事哪些工作?Python人工智慧
- 除了teamviewer,還有什麼遠端控制伺服器的工具?View伺服器
- 除了星外,還有什麼公有云管理系統比較好?
- 找工作除了海投簡歷和刷題,我還能做什麼?
- Unity 引擎 14 年!開發者除了遊戲還可以用它來做什麼?Unity遊戲