亞馬遜使用 Aurora 替換 Oracle:導致 Prime Day 促銷日癱瘓
轉自 | 雲頭條
公眾號 | YunTouTiao
-
據外媒CNBC獲得的內部檔案顯示,亞馬遜遷離Oracle的資料庫使用Aurora PostgreSQL是Prime Day促銷日陷入癱瘓的主要原因。
-
這次故障突顯了亞馬遜希望在2020年之前完全擺脫Oracle資料庫的過程中可能面臨的挑戰。
-
近年來亞馬遜和Oracle在打口水仗,聲稱自家資料庫軟體和雲工具的效能更勝一籌。
亞馬遜現在算是領教了遷離Oracle資料庫軟體有多困難。
據CNBC獲得的一份內部報告顯示,在Prime Day促銷日,這個頭號電子零售商一邊忙著處理導致銷售流程減慢的重大網站故障,一邊忙著應對其在俄亥俄州最大的一個倉庫遇到的技術問題,該技術問題導致成千上萬件包裹發貨延遲。
檔案顯示,這個問題很大程度上歸咎於亞馬遜從Oracle資料庫遷移到自家的資料庫技術。這次故障突顯了亞馬遜希望在2020年之前完全擺脫Oracle資料庫的過程中可能面臨的挑戰,以及重新獲得這種級別的可靠性有多難。這還表明Oracle的資料庫在一些方面確實比亞馬遜的同類軟體更高效,Oracle可能會在本週於舊金山舉行的年度OpenWorld大會上強調這一點。
Prime Day故障發生後,亞馬遜的工程師撰寫了一份長達25頁的報告,亞馬遜稱這是糾正錯誤。亞馬遜採用這套標準流程,試圖瞭解重大事故為何發生、如何防止將來重蹈覆轍。
報告顯示,亞馬遜努力查明Prime Day問題的根本原因,原因是資料庫遷移之後丟失了一項功能。檔案顯示,萬一剛安裝的資料庫(名為Aurora PostgreSQL)出現錯誤,亞馬遜也未給出應急方案。
在一個問題中,工程師被問及為什麼亞馬遜的倉庫資料庫沒有遇到“上一次流量高峰期間(那時使用Oracle資料庫)的同一個問題”。他們回答,“Oracle和Aurora PostgreSQL是兩種不同的[資料庫]技術”,處理“儲存點”(savepoint)的方式不一樣。
儲存點是一種重要的資料庫工具,用於跟蹤和恢復單個事務。報告稱,在Prime Day當天,建立了數量過多的儲存點,亞馬遜的Aurora軟體不堪重負,因而拖累了資料庫的整體效能。
無論如何都有可能發生
CNBC透露了檔案的細節後,伊利諾伊大學厄巴納-尚佩恩分校的電腦科學教授馬特•西澤(Matt Caesar)說:“如果亞馬遜堅持使用Oracle資料庫,很可能不會發生這次故障。此外,如果亞馬遜使用Oracle的資料庫,似乎能夠更早地診斷問題,從而有望縮短故障的持續時間。”
亞馬遜的發言人在透過電子郵件發表的宣告中對這個問題輕描淡寫,稱沒有什麼故障,儘管內部檔案聲稱資料庫“效能降級導致了滯後和嚴重故障。”
發言人說:“有必要指出這一點,那就是該倉庫從未發生過什麼故障,問題只是導致了約1%的包裹出現短時間的發貨延遲。這個問題很快查明並得到了解決。”
俄亥俄州的這個倉庫是在Prime Day之前遷離Oracle資料庫的13個倉庫中最大的一個。檔案稱,在Prime Day促銷活動期間,該倉庫每天處理的包裹超過110萬件。處理庫存和發貨資料的所有服務和軟體已統統遷移到了那些倉庫中的Aurora資料庫上。
據報告聲稱,這次故障在Prime Day持續了數小時,導致15000多件包裹發貨延遲,還浪費了約90000美元的勞動力成本。損失不包括工程師們排除和修復錯誤所耗費的所有時間或任何可能錯失的銷售訂單。
在報告裡頭名為“汲取教訓”的部分,亞馬遜的工程師寫道:“儲存點在Aurora PostgreSQL中的行為與其在Oracle中的行為不一樣”,言外之意是Oracle的軟體處理問題更有效。報告還稱,沒有用於PostgreSQL中分析的SQL語句資料,而要是有該資料,“原本有助於查明”問題的根本原因。
要是亞馬遜做好更充分的準備,這次故障也許不那麼嚴重。在檔案的一個部分,該公司稱,由於“底層PostgreSQL資料庫遇到效能問題時缺少應對方案”,“結果花了很長的時間才解決”問題。檔案還聲稱,一份“完備的應對方案或操作手冊”原本有助於“更快地消除影響”。
哥倫比亞大學的電腦科學教授亨寧•舒爾茨萊寧(Henning Schulzrinne)看了檔案後說:“我猜想,亞馬遜剛更換了資料庫,並沒有測試在亞馬遜Prime Day那天出現的具體的負載模式,結果大吃一驚 ”。
近年來,亞馬遜和Oracle一直在打口水仗,原因是亞馬遜擴大了軟體品種,與Oracle更加正面較量了。CNBC在8月份曾報導,亞馬遜正努力在2020年初之前將整套資料庫從Oracle遷移出去。
“真的很難”
Oracle董事長兼聯合創始人拉里•埃裡森才不信亞馬遜的說法。在該公司去年12月份的財報電話會議上,埃裡森稱亞馬遜“沒有遷離Oracle”。他在今年8月份的一次活動中重申了觀點,他說:“我認為亞馬遜做不到這一點。”
他說:“亞馬遜有10年的時間來遷移Oracle,但現在仍使用Oracle。而使用自己的技術對它們來說並不容易。那麼做不具有成本效益。我的意思是,真的很難。”
市場研究公司Moor Insights & Strategy的首席分析師帕特里克•穆爾黑德(Patrick Moorhead)表示,這一事件表明,舊的應用軟體(就像亞馬遜倉庫中使用的那些應用軟體)遷離Oracle有多難;幾十年來,Oracle一直在與世界上最大的企業合作。
他說:“AWS Aurora是為前瞻性應用軟體設計的,而Oracle是為較傳統的應用軟體設計的。”
論文:Amazon Aurora:高吞吐量雲原生關聯式資料庫在設計方面的考量
資料下載
後臺回覆關鍵詞 【SACC2018】
→獲取 SACC2018 大會PPT合集
後臺回覆關鍵詞 【DTCC2018】
→獲取 DTCC2018 大會PPT合集
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545808/viewspace-2217650/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 2016-2020年亞馬遜Prime Day銷售額(附原資料表) 亞馬遜
- eMarketer:預計2020年亞馬遜Prime Day銷售額達99.1億美元亞馬遜
- Periscope:2018年亞馬遜Prime會員日報告亞馬遜
- 亞馬遜Prime Video中使用WebAssembly提高了效率亞馬遜IDEWeb
- 替換Oracle,從阿里巴巴到亞馬遜-他們在逃離什麼?Oracle阿里亞馬遜
- Adobe:2022年亞馬遜Prime Day首日銷售額達60億美元 較去年增長7.8%亞馬遜
- 無人駕駛汽車Aurora使用亞馬遜雲科技加速Aurora Driver的開發亞馬遜
- Comscore:社交媒體已經成為亞馬遜Prime Day的重要參與渠道亞馬遜
- 2020年亞馬遜Prime會員日10月13-14日全球同步開啟亞馬遜
- 亞馬遜Prime付費會員數量超1億亞馬遜
- 亞馬遜為蘋果使用者推出Mac版 Prime Video 追劇應用亞馬遜蘋果MacIDE
- Akamai DNS全球中斷導致主要網站和線上服務癱瘓AIDNS網站
- raid5癱瘓導致資料庫損壞的恢復過程AI資料庫
- 伺服器癱瘓導致虛擬機器丟失恢復過程伺服器虛擬機
- 亞馬遜雲科技宣佈Amazon Aurora Serverless v2正式可用亞馬遜Server
- 英國持續高溫導致甲骨文和谷歌雲服務癱瘓谷歌
- 亞馬遜雲科技:對Amazon Aurora進行資料庫變更管理亞馬遜資料庫
- 亞馬遜銷售最好的書籍亞馬遜
- 廣大大:2021年黑五促銷亞馬遜鞋服珠寶資料回盤亞馬遜
- 亞馬遜DRKG使用體驗亞馬遜
- Raid5兩塊硬碟離線導致伺服器癱瘓的解決方法AI硬碟伺服器
- Babelfish for Amazon Aurora PostgreSQL現已在亞馬遜雲科技中國區域正式可用BabelSQL亞馬遜
- 安全快報 | 大規模的網路攻擊導致芬蘭政府網站癱瘓網站
- 關於亞馬遜AWS 棄用 Oracle的思考亞馬遜Oracle
- 亞馬遜推出的射擊遊戲Crucible,將刺激產生更多Prime會員亞馬遜遊戲
- 亞馬遜計劃開設更多實體店擴充Prime服務種類亞馬遜
- 亞馬遜erp_賣家如何選擇亞馬遜erp?亞馬遜
- 亞馬遜定價_亞馬遜erp產品定價策略亞馬遜
- ITDaily | 亞馬遜用 AI 自動跟蹤員工效率,摸魚自動開除;亞馬遜中國官網無法開啟,因清倉促銷所致?AI亞馬遜
- 亞馬遜評級亞馬遜
- 【伺服器資料恢復】Raid5癱瘓導致上層lun無法使用的資料恢復案例伺服器資料恢復AI
- 南非Transnet遭受網路攻擊,致港口運輸系統癱瘓
- Parametrix :CrowdStrike導致的系統癱瘓在78分鐘給全球造成150億美元的損失
- 【伺服器資料恢復】斷電導致伺服器癱瘓的資料恢復案例伺服器資料恢復
- 儲存癱瘓導致虛擬化平臺丟失虛擬機器該怎麼解決虛擬機
- 亞馬遜賣家如何利用Instagram提升銷售額亞馬遜
- 亞馬遜:2020年淨銷售額增長38%亞馬遜
- 【北亞資料恢復】伺服器raid陣列癱瘓導致ZFS檔案系統元檔案損壞的資料恢復資料恢復伺服器AI陣列