0 前言
一般初學者學習編碼和[錯誤處理]時,先知道[程式語言]有一種處理錯誤的形式或約定(如Java就拋異常),然後就開始用這些工具。但卻忽視這問題本質:處理錯誤是為了寫正確程式。可是
1 啥叫“正確”?
由解決的問題決定的。問題不同,解決方案不同。
如一個web介面接受使用者請求,引數age,也許業務要求欄位是0~150之間整數。如輸入字串或負數就肯定不接受。一般在後端某地做輸入合法性檢查,不過就拋異常。
但歸根到底這問題“正確”解決方法總是要以某種形式提示使用者。而提示使用者是某種前端工作,就要看介面是app,H5+AJAX還是類似於[jsp]的伺服器產生介面。不管啥,你要根據需求去”設計一個修復錯誤“的流程。如一個常見的流程要後端拋異常,然後一路到某個集中處理錯誤的程式碼,將其轉換為某個HTTP的錯誤(業務錯誤碼)提供給前端,前端再對映做”提示“。如使用者輸入非法請求,從邏輯上後端都沒法自己修復,這是個“正確”的策略。
2 報500了嘞!
如使用者上傳一個頭像,後端將圖片發給[雲端儲存],結果雲端儲存報500,咋辦?你可能想重試,因為也許僅是[網路抖動],重試就能正常執行。但若重試多次無效,若設計了某種熱備方案,可能改為發到另一個伺服器。“重試”和“使用備份的依賴”都是“立刻處理“。
但若重試無效,所有的[備份服務]也無效,也許就能像上面那樣把錯誤拋給前端,提示使用者“伺服器開小差”。從這方案易看出,你想把錯誤拋到哪裡是因為那個catch的地方是處理問題最方便的地方。一個問題的解決方案可能要幾個不同的錯誤處理組合起來才能辦到。
3 NPE了!
你的程式拋個NPE。這一般就是程式設計師的bug:
- 要不就是程式設計師想表達一個東西”沒有“,結果在後續處理中忘判斷是否為null
- 要不就是在寫程式碼時覺得100%不可能為null的地方出現了一個null
不管哪種,這錯誤使用者總會看到一個很含糊的報錯資訊,這遠遠不夠。“正確”辦法是程式設計師自己能儘快發現它,並儘快修復。要做到這點,需要[監控系統]不斷爬log,把問題報警出來。而非等使用者找客服投訴。
4 OOM了!
比如你的[後端程式]突然OOM掛了。掛的程式沒法恢復自己。要做到“正確”,須在服務之外的容器考慮這問題。
如你的服務跑在[k8s],他們會監控你程式狀態,然後重啟新的服務例項彌補掛掉的服務,還得調整流量,把去往當機服務的流量切換到新例項。這的恢復因為跨系統所以不能僅用異常實現,但道理一樣。
但光靠重啟就“正確”了?若服務是完全無狀態,問題不大。但若有狀態,部分使用者資料可能被執行一半的請求搞亂。因此重啟要留意先“恢復資料到合法狀態”。這又回到你要知道咋樣才是“正確”的做法。只依靠簡單的語法功能不能無腦解決這事。
5 提升維度
- 一個工作執行緒的“外部容器“是管理工作執行緒的“master”
- 一個網路請求的“外部容器”是一個Web Server
- 一個使用者程式的“外部容器”是[作業系統]
- Erlang把這種supervisor-worker的機制融入到語言的設計
Web程式很大程度能把異常拋給頂層,是因為:
- 請求來自前端,對因為使用者請求有誤(資料合法性、許可權、使用者上下文狀態)造成的問題,最終基本只能告訴使用者。因此拋異常到一個集中處理錯誤的地方,把異常轉換為某個業務錯誤碼的方法,合理
- 後端服務一般無狀態。這也是軟體系統設計的一般原則。無狀態才意味著可隨時隨地安心重啟。使用者資料不會因為因為下一條而會出問題
- 後端對資料的修改依賴DB的事務。因此一個改一半的、沒提交的事務不會造成副作用。
但這3條件並非總成立。總能遇到:
- 一些處理邏輯並非無狀態
- 也並非所有的資料修改都能用一個事務保護
尤其要注意對[微服務]的呼叫,對記憶體狀態的修改是沒有事務保護的,一不留神就會搞亂使用者資料。比如下面程式碼段
6 難以排查的程式碼段
try {
int res1 = doStep1();
this.status1 += res1;
int res2 = doStep2();
this.status2 += res2;
// 拋個異常
int res3 = doStep3();
this.status3 = status1 + status2 + res3;
} catch ( ...) {
// ...
}
先假設status1、status2、status3之間需維護某種不變的約束(invariant)。然後執行這段程式碼時,如在doStep3拋異常,下面對status3的賦值就不會執行。這時如不能將status1、status2的修改rollback,就會造成資料違反約束的問題。
而程式設計師很難發現這個資料被改壞了。壞資料還可能導致其他依賴這資料的程式碼邏輯出錯(如原本應該給積分的,卻沒給)。而這種錯誤一般很難排查,從大量資料裡找到不正確的那一小段何其困難。
7 更難搞定的程式碼段
// controller
void controllerMethod(/* 引數 */) {
try {
return svc.doWorkAndGetResult(/* 引數 */);
} catch (Exception e) {
return ErrorJsonObject.of(e);
}
}
// svc
void doWorkAndGetResult(/* some params*/) {
int res1 = otherSvc1.doStep1(/* some params */);
this.status1 += res1;
int res2 = otherSvc2.doStep2(/* some params */);
this.status2 += res2;
int res3 = otherSvc3.doStep3(/* some params */);
this.status3 = status1 + status2 + res3;
return SomeResult.of(this.status1, this.status2, this.status3);
}
難搞在於你寫的時候可能以為doStep1~3這種東西即使拋異常也能被Controller裡的catch。
在svc這層是不用處理任何異常,因此不寫[try……catch]天經地義。但實際上doStep1、doStep2、doStep3任何一個拋異常都會造成svc的資料狀態不一致。甚至你一開始都可以透過文件或其他溝通確定doStep1、doStep2、doStep3一開始都是必然可成功,不會拋錯的,因此你寫的程式碼一開始是對的。
但你可能無法控制他們的實現(如他們是另外一個團隊開發的[jar]提供的),而他們的實現可能會改成拋錯。你的程式碼可能在完全不自知情況下從“不會出問題”變成“可能出問題”…… 更可怕的類似程式碼不能正確工作:
void doWorkAndGetResult(/* some params*/) {
try {
int res1 = otherSvc1.doStep1(/* some params */);
this.status1 += res1;
int res2 = otherSvc2.doStep2(/* some params */);
this.status2 += res2;
int res3 = otherSvc3.doStep3(/* some params */);
this.status3 = status1 + status2 + res3;
return SomeResult.of(this.status1, this.status2, this.status3);
} catch (Exception e) {
// do rollback
}
}
你以為這樣就會處理好資料rollback,甚至覺得這種程式碼優雅。但實際上doStep1~3每一個地方拋錯,rollback的程式碼都不一樣。
得這麼寫
void doWorkAndGetResult(/* some params*/) {
int res1, res2, res3;
try {
res1 = otherSvc1.doStep1(/* some params */);
this.status1 += res1;
} catch (Exception e) {
throw e;
}
try {
res2 = otherSvc2.doStep2(/* some params */);
this.status2 += res2;
} catch (Exception e) {
// rollback status1
this.status1 -= res1;
throw e;
}
try {
res3 = otherSvc3.doStep3(/* some params */);
this.status3 = status1 + status2 + res3;
} catch (Exception e) {
// rollback status1 & status2
this.status1 -= res1;
this.status2 -= res2;
throw e;
}
}
這才是得到正確結果的程式碼,在任何地方出錯都能維護資料一致性。優雅嗎?
看起來很醜。比go的if err != nil還醜。但要在正確性和優雅性取捨,肯定毫不猶豫選前者。作為程式設計師不能直接認為拋異常可解決任何問題,須學會寫出有正確邏輯的程式,哪怕很難且看起來醜。
為達成高正確性,你不能總將自己大部分注意力放在“一切都OK的流程“,而把錯誤看作是可隨便應付了事的工作或簡單的相信exception可自動搞定一切。
8 總結
對錯誤處理要有敬畏之心:
- Java因為Checked Exception設計問題不得不避免使用
- 而Uncaughted Exception實在弱雞,不能給程式設計師提供更好幫助
因此,程式設計師在每次拋錯或者處理錯誤的時候都要三省吾身:
- 這個錯誤的處理是正確嗎?
- 會讓使用者看到啥?
- 會不會搞亂資料?
不要以為自己拋個異常就完事了。在[編譯器]不能幫上太多忙時,好好寫UT來保護程式碼可憐的正確性。
請多寫正確的程式碼!
本文由部落格一文多發平臺 OpenWrite 釋出!