AI+雲原生，把衛星遙感虐的死去活來

華為雲開發者社群發表於2021-08-18

原文網址 : https://www.cnblogs.com/huaweiyun/p/15155573.html

摘要：遙感影像，作為地球自拍照，能夠從更廣闊的視角，為人們提供更多維度的輔助資訊，來幫助人類感知自然資源、農林水利、交通災害等多領域資訊。

本文分享自華為雲社群《AI+雲原生，把衛星遙感虐的死去活來》，作者：tsjsdbd。

AI牛啊，雲原生牛啊，所以1+1>2？

遙感影像，作為地球自拍照，能夠從更廣闊的視角，為人們提供更多維度的輔助資訊，來幫助人類感知自然資源、農林水利、交通災害等多領域資訊。

AI技術，可以在很多領域超過人類，關鍵是它是自動的，省時又省力。可顯著提升遙感影像解譯的工作效率，對各類地物元素進行自動化的檢測，例如建築物，河道，道路，農作物等。能為智慧城市發展&治理提供決策依據。

雲原生技術，近年來可謂是一片火熱。易構建，可重複，無依賴等優勢，無論從哪個角度看都與AI演算法天生一對。所以大家也可以看到，各領域的AI場景，大都是將AI推理演算法執行在Docker容器裡面的。

AI+雲原生這麼6，那麼強強聯手後，地物分類、目標提取、變化檢測等高效能AI解譯不就手到擒來？我們也是這麼認為的，所以基於AI+Kubernetes雲原生，構建了支援遙感影像AI處理的空天地平臺。

不過理想是好的，過程卻跟西天取經一般，九九八十一難，最終修成正果。

業務場景介紹

遇到問題的業務場景叫影像融合（Pansharpen），也就是對地球自拍照進行“多鏡頭合作美顏”功能。（可以理解成：手機的多個攝像頭，同時拍照，合併成一張高清彩色大圖）。

所以業務簡單總結就是：讀取2張圖片，生成1張新的圖片。該功能我們放在一個容器裡面執行，每張融合後的結果圖片大約5GB。

問題的關鍵是，一個批次業務量需要處理的是3000多張衛星影像，所以每批任務只需要同時執行完成3000多個容器就OK啦。雲原生YYDS！

業務架構圖示

為了幫助理解，這裡分解使用雲原生架構實現該業務場景的邏輯圖如下：

在雲上，原始資料，以及結果資料，一定是要存放在物件儲存桶裡面的。因為這個資料量，只有物件儲存的價格是合適的。（物件儲存，1毛錢/GB。檔案儲存則需要3毛錢/GB）

因為容器之間是互相獨立無影響的，每個容器只需要處理自己的那幅影像就行。例如1號容器處理 1.tif影像；2號容器處理2.tif影像；一次類推。

所以管理程式，只需要投遞對應數量的容器（3000+），並監控每個容器是否成功執行完畢就行（此處為簡化說明，實際業務場景是一個pipeline處理流程）。那麼，需求已經按照雲原生理想的狀態分解，我們們開始起(tang)飛(keng)吧~

注：以下描述的問題，是經過梳理後呈現的，實際問題出現時是互相穿插錯綜複雜的。

K8s死掉了

當作業投遞後，不多久系統就顯示作業紛紛失敗。檢視日誌報呼叫K8s介面失敗，再一看，K8s的Master都已經掛了。。。

K8s-Master處理過程，總結版：

發現Master掛是因為CPU爆了
所以擴容Master節點（此次重複N次）；
效能優化：擴容叢集節點數量；
效能優化：容器分批投放；
效能優化：查詢容器執行進度，少用ListPod介面；

詳細版：

看監控Master節點的CPU已經爆掉了，所以最簡單粗暴的想法就是給Master擴容呀，嘎嘎的擴。於是從4U8G * 3 一路擴容一路測試一路失敗，擴到了32U64G * 3。可以發現CPU還是爆滿。看來簡單的擴容是行不通了。

3000多個容器，投給K8s後，大量的容器都處於Pending狀態（叢集整體資源不夠，所以容器都在排隊呢）。而正在Pending的Pod，K8s的Scheduler會不停的輪訓，去判斷能否有資源可以給它安排上。所以這也會給Scheduler巨大的CPU壓力。擴容叢集節點數量，可以減少排隊的Pod數量。

另外，既然排隊的太多，不如就把容器分批投遞給K8s吧。於是開始分批次投遞任務，想著別一次把K8s壓垮了。每次投遞數量，減少到1千，然後到500，再到100。

同時，查詢Pod進度的時候，避免使用ListPod介面，改為直接查詢具體的Pod資訊。因為List介面，在K8s內部的處理會列出所有Pod資訊，處理壓力也很大。

這一套組合拳下來，Master節點終於不掛了。不過，一頭問題按下去了，另一頭問題就冒出來了。

容器跑一半，掛了

雖然Master不掛了，但是當投遞1~2批次作業後，容器又紛紛失敗。

容器掛掉的處理過程，總結版：

發現容器掛掉是被eviction驅逐了；
Eviction驅逐，發現原因是節點報Disk Pressure（儲存容量滿了）；
於是擴容節點儲存容量；
延長驅逐容器（主動kill容器）前的容忍時間；

詳細版：

（注：以下問題是定位梳理後，按順序呈現給大家。但其實出問題的時候，順序沒有這麼友好）

容器執行失敗，首先想到的是先看看容器裡面指令碼執行的日誌唄：結果報日誌找不到~

於是查詢Pod資訊，從event事件中發現有些容器是被Eviction驅逐幹掉了。同時也可以看到，驅逐的原因是 DiskPressure（即節點的儲存滿了）。

當Disk Pressure發生後，節點被打上了驅逐標籤，隨後啟動主動驅逐容器的邏輯：

由於節點進入Eviction驅逐狀態，節點上面的容器，如果在5分鐘後，還沒有執行完，就被Kubelet主動殺死了。（因為K8s想通過幹掉容器來騰出更多資源，從而儘快退出Eviction狀態）。

這裡我們假設每個容器的正常執行時間為1~2個小時，那麼不應該一發生驅動就馬上殺死容器（因為已經執行到一半的容器，殺掉重新執行是有成本浪費的）。我們期望應該儘量等待所有容器都執行結束才動手。所以這個 pod-eviction-timeout 容忍時間，應該設定為24小時（大於每個容器的平均執行時間）。

Disk Pressure的直接原因就是本地盤容量不夠了。所以得進行節點儲存擴容，有2個選擇：1）使用雲端儲存EVS（給節點掛載雲端儲存）。 2）擴容本地盤（節點自帶本地儲存的VM）。

由於雲端儲存（EVS）的頻寬實在太低了，350MB/s。一個節點我們們能同時跑30多個容器，頻寬完全滿足不了。最終選擇使用 i3型別的VM。這種VM自帶本地儲存。並且將8塊NVMe盤，組成Raid0，頻寬還能x8。

物件儲存寫入失敗

容器執行繼續紛紛失敗。

容器往物件儲存寫入失敗處理過程，總結版：

不直接寫入，而是先寫到本地，然後cp過去。
將普通物件桶，改為支援檔案語義的並行檔案桶。

詳細版：

檢視日誌發現，指令碼在生成新的影像時，往儲存中寫入時出錯：

我們整叢集是500核的規模，同時執行的容器數量大概在250個（每個2u2g）。這麼多的容器同時往1個物件儲存桶裡面併發追加寫入。這個應該是導致該IO問題的原因。

物件儲存協議s3fs，本身並不適合大檔案的追加寫入。因為它對檔案的操作都是整體的，即使你往一個檔案追加寫入1位元組，也會導致整個檔案重新寫一遍。

最終這裡改為：先往本地生成目標影像檔案，然後指令碼的最後，再拷貝到物件儲存上。相當於增加一個臨時儲存中轉一下。

在臨時中轉儲存選擇中，2種本地儲存都試過： 1）塊儲存頻寬太低，350MB/s影響整體作業速度。2）可以選擇帶本地儲存的VM，多塊本地儲存組成Raid陣列，頻寬速度都槓槓滴。

同時，華為雲在物件儲存協議上也有一個擴充套件，使其支援追加寫入這種的POSIX語義，稱為並行檔案桶。後續將普通的物件桶，都改為了檔案語義桶。以此來支撐大規模的併發追加寫入檔案的操作。

K8s計算節點掛了

So，繼續跑任務。但是這容器作業，執行又紛紛失敗鳥~

計算節點掛掉，定位梳理後，總結版：

計算節點掛掉，是因為好久沒上報K8s心跳了。
沒上報心跳，是因為kubelet（K8s節點的agent）過得不太好（死掉了）。
是因為Kubelet的資源被容器搶光了（由於不想容器經常oom kill，並未設定limit限制）
為了保護kubelet，所有容器全都設定好limit。

詳細版，直接從各類奇葩亂象等問題入手：

容器啟動失敗，報超時錯誤。

然後，什麼PVC共享儲存掛載失敗：

或者，又有些容器無法正常結束（刪不掉）。

查詢節點Kubelet日誌，可以看到充滿了各種超時錯誤：

啊，這麼多的底層容器超時，一開始感覺的Docker的Daemon程式掛了，通過重啟Docker服務來試圖修復問題。

後面繼續定位發現，K8s叢集顯示，好多計算節點Unavailable了（節點都死掉啦）。

繼續分析節點不可用（Unavailable），可以發現是Kubelet好久沒有給Master上報心跳了，所以Master認為節點掛了。說明不僅僅是Docker的Daemon受影響，節點的Kubelet也有受影響。

那什麼情況會導致Kubelet，Docker這些主機程式都不正常呢？這個就要提到Kubernetes在排程容器時，所設計的Request和Limit這2個概念了。

Request是K8s用來排程容器到空閒計算節點上的。而Limit則會傳遞給Docker用於限制容器資源上限（觸發上限容易被oom killer 殺掉）。前期我們為了防止作業被殺死，僅為容器設定了Request，沒有設定Limit。也就是每個容器實際可以超出請求的資源量，去搶佔額外的主機資源。大量容器併發時，主機資源會受影響。

考慮到雖然不殺死作業，對使用者挺友好，但是平臺自己受不了也不是個事。於是給所有的容器都加上了Limit限制，防止容器超限使用資源，強制使用者程式執行在容器Limit資源之內，超過就Kill它。以此來確保主機程式（如Docker，Kubelet等），一定是有足夠的執行資源的。

K8s計算節點，又掛了

於是，繼續跑任務。不少作業執行又雙叒失敗鳥~

節點又掛了，總結版：

分析日誌，這次掛是因為PLEG（Pod Lifecycle Event Generator）失敗。
PLEG異常是因為節點上面存留的歷史容器太多（>500個），查詢用時太久超時了。
及時清理已經執行結束的容器（即使跑完的容器，還是會佔用節點儲存資源）。
容器介面各種超時（cpu+memory是有limit保護，但是io還是會被搶佔）。
提升系統磁碟的io效能，防止Docker容器介面（如list等）超時。

詳細版：

現象還是節點Unavailable了，檢視Kubelet日誌搜尋心跳情況，發現有PLEG is not healthy 的錯誤：

於是搜尋PLEG相關的Kubelet日誌，發現該錯誤還挺多：

這個錯誤，是因為kubelet去list當前節點所有容器（包括已經執行結束的容器）時，超時了。看了程式碼：https://github.com/kubernetes/kubernetes/blob/master/pkg/kubelet/pleg/generic.go#L203

kubelet判斷超時的時間，3分鐘的長度是寫死的。所以當pod數量越多，這個超時概率越大。很多場景案例表明，節點上的累計容器數量到達500以上，容易出現PLEG問題。（此處也說明K8s可以更加Flexible一點，超時時長應該動態調整）。

緩解措施就是及時的清理已經執行完畢的容器。但是執行結束的容器一旦清理，容器記錄以及容器日誌也會被清理，所以需要有相應的功能來彌補這些問題（比如日誌採集系統等）。

List所有容器介面，除了容器數量多，IO慢的話，也會導致超時。

這時，從後臺可以看到，在投遞作業期間，大量併發容器同時執行時，雲硬碟的寫入頻寬被大量佔用：

對儲存池的衝擊也很大：

這也導致了IO效能變很差，也會一定程度影響list容器介面超時，從而導致PLEG錯誤。

該問題的解決措施：儘量使用的帶本地高速盤的VM，並且將多塊資料盤組成Raid陣列，提高讀寫頻寬。

這樣，該VM作為K8s的節點，節點上的容器都直接讀寫本地盤，io效能較好。（跟大資料叢集的節點用法一樣了，強依賴本地shuffle~）。

在這多條措施實施後，後續多批次的作業都可以平穩的執行完。

總結：“AI+雲原生”這條路

雲原生是趨勢，已經成為大家的共識，各領域也都開始以雲原生為底座的業務嘗試。AI是未來，這也是當前不可阻擋的力量。但是當AI踏上這條雲原生的道路卻不那麼一帆風順。至少可以看到，華為雲的雲原生底座（當然，也包括儲存、網路等周邊基礎設施）還可以有更多的進步空間。

但是，大家也不用擔心太多，因為當前華為雲的空天地平臺，在經歷了多年的AI+雲原生的積累，目前可以很穩定的處理PB級每日的遙感影像資料，支撐各類空基、天基、地基等場景，並且在該領域保持絕對領先的戰鬥值。雖然大家看到此間過程有點曲折，但是所有的困難都是涅槃的火種，克服過的困難都是今後可以對客戶做的承諾。在這裡可以很明確的告訴各位：AI+雲原生=真香。

寫這篇文章的目的，不是在闡述困難，而是為了總結分享。與同領域的人分享並促進遙感領域的快速發展，共同推動AI+雲原生的落地。

點選關注，第一時間瞭解華為雲新鮮技術~

自然資源部：2019年衛星遙感應用報告
2020-07-25
中國測繪地理資訊大會：截至2022年末我國民用遙感衛星在軌工作294顆其中商業遙感衛星佔比超過60％
2023-11-12
策略，讓我在《死亡細胞》裡死去活來的動力
2019-05-16
死去活來的資訊博弈，作者與玩家的幕後戰爭
2020-03-17
阿里達摩院釋出AI EARTH 可精準分析遙感衛星、無人機等影像資訊
2020-09-18
阿里AI無人機
當遙感影象檢測機智起來：全場景AI與遙感的頂峰邂逅
2019-09-20
AI
幾種不同資料採集的概念：遙測、遙控、遙信、遙調、遙視、遙感
2024-02-28
arduino操作遙感
2024-07-09
UI
【遙感遙測】【2016】灌溉玉米田間土壤水分變化的遙感定量研究
2020-10-04
遙感智慧：來自天空的“海康威視”（附下載）
2021-09-10
歐科微“翔雲”衛星星座-低軌衛星通訊星座
2018-11-12
遙感專欄：（一）常用的遙感資料處理python庫及環境搭建
2020-10-02
Python
“創新雷神號”衛星成功發射，華為雲分散式雲原生“天地一體”首次組網成功
2022-03-13
分散式
ArcGIS批量裁剪遙感影像
2018-09-19
遙感影像處理流程
2020-11-09
遙感基礎學習
2021-01-03
雲原生=未來？
2021-06-02
爬蟲分享風雲2號衛星氣象照片
2020-01-27
爬蟲
SpaceX發射46顆星鏈衛星
2022-03-09
一年增加 1.2w 星，Dapr 能否引領雲原生中介軟體的未來？
2021-03-29
2米精度的遙感影像能看到什麼？
2024-05-08
衛星通訊，給手機市場帶來了什麼？
2022-09-30
Tech Talk 活動預告丨雲原生 DevOps 的 Kubernetes 技巧
2022-05-26
dev
Morphling：雲原生部署 AI ，如何把降本做到極致？
2021-09-25
AI
大勢已來：阿里雲梭哈雲原生
2019-10-09
阿里
Euroconsult: 衛星容量穩步下降
2019-12-17
資料庫的未來：雲原生+分散式
2021-10-29
資料庫分散式
一封來自蘭州市衛生健康委員會的感謝信
2020-06-16
SPIE獨立出版。遙感徵稿中--2024年遙感與數字地球國際學術會議（RSDE 2024）
2024-09-11
遙感大資料智慧分析與應用
2024-11-12
大資料
遙感影像Trento原始資料集下載
2024-11-01
批次計算遙感影像NDVI：Python程式碼
2024-11-09
Python
2:0！谷歌 AI “AlphaStar“ 虐殺職業星際玩家
2019-01-25
谷歌AIAST
基於R語言的raster包讀取遙感影像
2024-03-15
R語言AST
環保遙感監測，需要插上一雙AI的翅膀
2019-09-06
AI
Python用shp檔案裁剪多個遙感影像的方法
2024-07-24
Python
Python批次繪製遙感影像資料的直方圖
2023-02-27
Python直方圖
Python核對遙感影像批次下載情況的方法
2023-02-21
Python

AI+雲原生，把衛星遙感虐的死去活來

AI牛啊，雲原生牛啊，所以1+1>2？

業務場景介紹

業務架構圖示

K8s死掉了

容器跑一半，掛了

物件儲存寫入失敗

K8s計算節點掛了

K8s計算節點，又掛了

總結：“AI+雲原生”這條路

相關文章