因系統故障,美國逾10000架次航班延誤
美東時間1月11日早間,美國聯邦航空管理局(下稱FAA)一個關鍵系統出現故障,導致全美範圍內的航班停飛。雖然隨後FAA透過社媒更新訊息稱,全美航班的停飛令已經取消,但這個關鍵系統的故障,使得美國航空當局開始重新審視維持美國空中交通系統的彈性問題。
A video board shows flight delays and cancellations at Ronald Reagan Washington National Airport in Arlington, Va., Jan. 11, 2023.
Patrick Semansky/AP
據彭博社,FAA表示,仍在繼續透過全面評估來查明故障根本原因,但初步調查發現,故障原因是一個“受損的資料庫檔案”,且沒有證據表明是網路攻擊所致。
透過wiki/2023_FAA_system_outage 和其它相關報導,可以大致勾勒出出故障的相關情況。
1、出故障的系統是NOTAM(Notice to Air Missions ),NOTAM是美國聯邦航空管理局用於報告航空異常事件的系統,包括空域封鎖、惡劣天氣、跑道關閉等。對於飛行距離更長的國際航班來說,NOTAM可能多達200頁,內容包括跑道關閉、一般鳥類風險警告或低空建築障礙等資訊。美媒援引業內人士的話稱,過去NOTAM系統從未發生過全美範圍內的故障。
作為航空業局外IT人員,G哥判斷為NOTAM 雖然不是飛行本身的指揮系統,但是作為航空異常事件通知系統,也屬於飛行關鍵鏈路系統。如果對應的事件沒有被接收到,風險非常高。比如跨國飛行進入封鎖空域,抑或停在不正確的跑道上引發未知風險等。
2、美國空中交通管制官員在美東時間1月10日週二晚間意識到空中任務通知系統(NOTAM)出現問題時,他們想出了一個計劃,即在週三早間重啟系統,以最大限度減少該系統對美國境內航班的干擾。然而,最終該計劃導致了停電和大規模的航班延誤,隨後FAA下令全美範圍航班停飛。
1月10日20點30分,部分航班的飛行員已經無法透過網路獲得這些資訊。FAA緊急開放了電話應答的備用系統,使晚間的航班得以正常飛行。然而隨著新一天的到來,航班越來越多,備用系統已經無法支援,FAA隨即在東部時間1月11日上午7點30分左右發出指令,在9點前禁止全美所有航班起飛,已經起飛的飛機不受影響。實際上,故障在8:30 後逐步恢復。
3、故障的引入,一名工程師在例行的定期系統維護期間錯誤地將一個檔案替換為另一個檔案後,NOTAM 系統在下午 3 點 28 分停止處理更新。
據一位瞭解內部審查情況的高階官員稱,週三上午地面停飛和美國聯邦航空管理局系統故障影響了全美數千次航班,這似乎是例行定期系統維護期間發生錯誤的結果。
這位官員說,一名工程師“用一個檔案替換了另一個檔案”,並沒有意識到自己犯了錯誤。隨著系統開始出現問題並最終失敗,FAA 工作人員狂熱地試圖找出問題所在。犯錯誤的工程師沒有意識到發生了什麼。“這是一個讓國家損失數百萬美元的無心之失。”
週三早些時候,美國聯邦航空局表示,在計算機故障導致全國航班延誤和取消後,美國聯邦航空局下令在全國範圍內暫停所有國內航班起飛至週三上午 9 點後,正常運營正在“逐步恢復”。
4、Southwest, which canceled thousands of flights after Christmas following a systemwide meltdown, was hit hard, with more than 400 canceled flights. About 10% of Southwest’s Wednesday flights had been canceled and about half delayed as of 6 p.m. ET. 影響:(西南航空:10% 航班取消, 半數delay),整個事件,數百萬美元。
5、《NOTAM故障給我們的警示》這篇文章談到FAA的IT運維如此混亂,確實令人感到不可思議,不過這也不是NOTAM第一次出這麼大的問題了,2008年的那次故障更為嚴重。那時候NOTAM中用於記錄異常事件的資料庫還是跑在Sun sparc伺服器上的Oracle資料庫(不知道超期服役的NOTAM是不是指的這套系統,可能性還是很大的)。
那次也是因為運維處置的混亂,導致了2008年5月22日下午到2008年5月23日整個白天的大量航班異常。當時的場景也十分簡單,根據NOTAM的維護操作規程,一些使用年限超長的硬碟必須被按期更換。本來是很簡單的操作,插入新盤,拔出舊盤,rebuild工作自動完成。不過當時出現了問題,更換後系統的執行效能十分糟糕,於是一系列的臨時操作中出現了問題,等他們把主系統搞崩掉,準備切換到備用系統的時候,發現故障已經被傳播到備用系統了,備用系統也已經被破壞了。於是他們只能把能讀出的資料匯出,重新建新庫,再匯入資料,花了差不多一天多的時間才搞定系統。當系統恢復執行時,依然是存在資料不一致的問題的。
可以看出雖然相隔十多年,不過這兩次故障的發展過程如出一轍,我真懷疑這兩件事是同一批人乾的。
6、有官員將當前的中斷與假期期間西南航空公司陷入癱瘓的危機進行了比較:關鍵 IT 網路中過時的軟體逾期無法更換。如果一件事發生故障,系統可能會癱瘓。
不難看出,作為美國航空業也面臨做IT系統陳舊,對應的技術架構、運維能力、應急等方面“無法承受之重”。
1、線上變更可以導致的業務影響預期。
如果是業務變更,變更灰度(種子使用者、內部使用者乃至按比例擴大到外部使用者)。如果是非業務變更,如後臺檔案備份,資料備份,設施切換等,要考慮對線上業務的影響無感或者在可控範圍。
2、備用系統的可用性和容量問題。從描述“1月10日20點30分,部分航班的飛行員已經無法透過網路獲得這些資訊。FAA緊急開放了電話應答的備用系統,使晚間的航班得以正常飛行” 看出,NOTAM似乎不具備多地區多機房能力,只能採用電話應答模式臨時支援。這一點風險非常高,如果出現關鍵系統掛掉而無法隨時切換的情況。
3、對於故障的態度,一名工程師“用一個檔案替換了另一個檔案”,並沒有意識到自己犯了錯誤。隨著系統開始出現問題並最終失敗,FAA 工作人員狂熱地試圖找出問題所在。犯錯誤的工程師沒有意識到發生了什麼。“這是一個讓國家損失數百萬美元的無心之失。” 雖然這是對外說辭,但仍體現出官僚機構對於技術故障的敷衍。按照清單革命的說法,大部分問題都是無心或者無知之過,但不能成為藉口。
一個檔案更換錯誤,為什麼會導致一個全域性系統不能訪問的故障? 這本應該是隔離考慮的部分? 第二個是更換檔案,如何確保更換後的結果是符合預期的,如何驗證? 從目前的披露來看,肯定還沒有涉及到混沌工程和故障演練之類。
對於高風險業務的關鍵系統,確保高可靠性和高可用,做好服務隔離性設計和監控,做好變更管理,包括運維體系升級都是非常有必要的。
讀者有任何建議和討論,歡迎回復。
— END —
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2939345/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 美國簽證系統癱瘓 或因Oracle升級故障Oracle
- 安全快報 | 印度航空公司系統遭勒索軟體攻擊,導致數航班延誤
- 谷歌使用人工智慧來預測航班延誤谷歌人工智慧
- 【原】從XXX航航班延誤看軟體風險管理
- SpaceX揭祕爆炸原因:或因氦低溫系統故障所致
- Windows系統錯誤程式碼-----故障檢測用Windows
- Juniper:預計2020年全球聯網商用航班將超過10000架
- winlogon.exe錯誤藍屏 登入不了系統故障Go
- AIX系統故障處理AI
- 哈工大、哈工程被禁用MATLAB;小米手環 5 正式釋出;精心找航班延誤險漏洞發家致富Matlab
- Mysql slave 延遲故障一列MySql
- 10000字,圖解分散式系統限流平臺Sentinel圖解分散式
- 美國網路癱瘓系或是因境內攻擊所致
- 微軟延長 XP 系統安全支援微軟
- 『航班乘客滿意度』場景資料分析建模與業務歸因解釋 ⛵
- win10系統下一個重大更新將改善錯誤故障排除體驗Win10
- 兩個系統故障解決薦
- Linux之系統故障彙總Linux
- 【故障恢復】因spfile修改錯誤導致資料庫無法啟動的恢復方法資料庫
- 【故障處理】因GREP“花哨”功能導致ORA-12157錯誤的排查過程
- 航班資訊查詢和檢索系統-資料結構課程設計資料結構
- 系統自動回收之前已經為該航班分配的SSR的規則
- 磁碟故障引起的系統變慢定位
- CSC209 系統故障 管道
- WindowsXP系統關機時提示riconman.exe錯誤的故障原因及解決方案Windows
- 【故障公告】部落格系統升級到 .NET 5.0 引發的故障
- 統信UOS系統常見故障及處理方法
- 1109. 航班預訂統計(中)
- 監控系統常見故障與排查方法
- 更換HP小型機系統映象故障盤
- UNIX作業系統列印故障的排除(轉)作業系統
- Windows XP 系統故障恢復寶典(轉)Windows
- MySQL 8.0因關閉Gtid 引發從庫故障MySql
- 記錄一次因subprocess PIPE 引起的線上故障
- 美國伺服器延遲高怎麼辦,如何解決延遲問題伺服器
- 系統無法讓您登入,因為發生下列錯誤:無法取得RPC伺服器RPC伺服器
- win10系統kernelbase.dll故障如何修復_win10系統kernelbase.dll故障怎麼解決Win10
- 阿里分散式系統效能提升10000倍的技術揭祕——視訊解析阿里分散式