大家好,我是雨樂!
前幾天,突然收到報警,線上服務崩潰,然後自動重啟。
由於正值雙十一期間,業務以穩定為主,線上服務崩潰,這可不是一件小事,趕緊登陸線上伺服器,分析原因,迅速解決。
藉助這篇文章,記錄下整個崩潰的分析和解決過程。
收到報警
上午上班後,正在划水,突然收到郵件報警,如下:
問題分析
馬上登入線上伺服器,gdb除錯堆疊資訊。
堆疊資訊如下:
#0 0x0000003ab9a324f5 in raise () from /lib64/libc.so.6
#1 0x0000003ab9a33cd5 in abort () from /lib64/libc.so.6
#2 0x0000003abcebea8d in __gnu_cxx::__verbose_terminate_handler() () from /usr/lib64/libstdc++.so.6
#3 0x0000003abcebcbe6 in ?? () from /usr/lib64/libstdc++.so.6
#4 0x0000003abcebcc13 in std::terminate() () from /usr/lib64/libstdc++.so.6
#5 0x0000003abcebcd32 in __cxa_throw () from /usr/lib64/libstdc++.so.6
#6 0x00000000006966bf in Json::throwRuntimeError(std::basic_string<char, std::char_traits, std::allocator > const&) ()
#7 0x0000000000681019 in Json::Reader::readValue() ()
#8 0x000000000068277c in Json::Reader::readArray(Json::Reader::Token&) ()
#9 0x0000000000681152 in Json::Reader::readValue() ()
#10 0x00000000006823a6 in Json::Reader::readObject(Json::Reader::Token&) ()
#11 0x00000000006810f5 in Json::Reader::readValue() ()
#12 0x0000000000680e6e in Json::Reader::parse(char const*, char const*, Json::Value&, bool) ()
#13 0x0000000000680c52 in Json::Reader::parse(std::basic_string<char, std::char_traits, std::allocator > const&, Json::Value&, bool) ()
......
在上面堆疊資訊中可以看到在呼叫Json::Reader::parse後經過Json::Reader::readValue等呼叫,最後再呼叫Json::Reader::readValue時呼叫Json::throwRuntimeError丟擲異常。
檢視呼叫Json::throwRuntimeError函式的地方:
src/lib_json/json_writer.cpp: throwRuntimeError("commentStyle must be 'All' or 'None'");
src/lib_json/json_reader.cpp: if (stackDepth_g >= stackLimit_g) throwRuntimeError("Exceeded stackLimit in readValue().");
src/lib_json/json_reader.cpp: if (stackDepth_ >= features_.stackLimit_) throwRuntimeError("Exceeded stackLimit in readValue().");
src/lib_json/json_reader.cpp: if (name.length() >= (1U<<30)) throwRuntimeError("keylength >= 2^30");
src/lib_json/json_reader.cpp: throwRuntimeError(errs);
src/lib_json/json_value.cpp: throwRuntimeError(
src/lib_json/json_value.cpp: throwRuntimeError(
src/lib_json/json_value.cpp:JSONCPP_NORETURN void throwRuntimeError(JSONCPP_STRING const& msg)
src/lib_json/json_valueiterator.inl: throwRuntimeError("ConstIterator to Iterator should never be allowed.");
進入對應的函式
bool Reader::readValue() {
if (stackDepth_g >= stackLimit_g) throwRuntimeError("Exceeded stackLimit in readValue().");
++stackDepth_g;
... ...
--stackDepth_g;
return successful;
}
發現,在滿足條件
stackDepth_g >= stackLimit_g
的時候,會呼叫throwRuntimeError,那麼分析下stackDepth_g和stackLimit_g的宣告定義:
static int const stackLimit_g = 1000;
static int stackDepth_g = 0;
問題基本明瞭:
❝stackDepth_g是個靜態全域性變數,執行緒不安全,而出問題的服務是多執行緒的
❞
在此準備吐槽下,筆者使用jsoncpp物件的時候,都是線上程內部一個區域性變數,因此不會存在多執行緒訪問同一個區域性jsoncpp物件的時候,因此確定就是因為全域性變數多執行緒訪問導致的。一個開源的專案,裡面竟然有全域性變數,這在規範裡面是不被允許的。
然後谷歌搜尋了下大家都有過類似的問題,再次吐槽下。
問題解決
解決崩潰問題,首先需要看看是不是使用方式的問題,或者找一個執行緒安全的介面,再或者用其他庫進行替換。
修改jsoncpp原始碼
為了解決執行緒安全的問題,有兩種方案: 1、在操作全域性變數的時候,加上mutex,這個無非對效能要求很高的業務一個致命打擊,為了提高業務效能,所以內部鎖都使用其他方式進行了優化,比如mutex使用雙buffer方式進行了替換,雖然mutex的一個加鎖解鎖過程也就100ns。
2、將上述全域性變數放入Json物件中,這樣區域性變數就不會存在崩潰現象,但是這種方案存在一個問題,就是改動點很大,且需要大量嚴格的測試,放棄。
所以綜合考慮上述兩點,決定採用其他更安全可靠的方式來解決線上崩潰問題。
使用rapidjson
之所以採用rapidjson,是因為線上幾十個服務,大部分都使用rapidjson,只有線上崩潰的這個服務等少數幾個服務,因為歷史原因,用的jsoncpp。
先介紹下rapidjson,下述內容來自於rapidjson官網:
-
RapidJSON 是一個 C++ 的 JSON 解析器及生成器。它的靈感來自 RapidXml。
-
RapidJSON 小而全。它同時支援 SAX 和 DOM 風格的 API。SAX 解析器只有約 500 行程式碼。
-
RapidJSON 快。它的效能可與 strlen() 相比。可支援 SSE2/SSE4.2 加速。
-
RapidJSON 獨立。它不依賴於 BOOST 等外部庫。它甚至不依賴於 STL。
-
RapidJSON 對記憶體友好。在大部分 32/64 位機器上,每個 JSON 值只佔 16 位元組(除字串外)。它預設使用一個快速的記憶體分配器,令分析器可以緊湊地分配記憶體。
-
RapidJSON 對 Unicode 友好。它支援 UTF-8、UTF-16、UTF-32 (大端序/小端序),並內部支援這些編碼的檢測、校驗及轉碼。例如,RapidJSON 可以在分析一個 UTF-8 檔案至 DOM 時,把當中的 JSON 字串轉碼至 UTF-16。它也支援代理對(surrogate pair)及 "\u0000"(空字元)。
不過rapidjson為了效能,在使用上面需要極其小心。
❝筆者之前踩過類似坑,區域性字串賦值給rapidjson物件,結果rapidjson並沒有馬上使用該區域性字串,而是在最後才會訪問區域性字串裡面的內容,而此時,區域性字串早已出了作用域,導致rapidjson獲取的內容是亂碼。
❞
結語
在使用開源專案的時候,一定要做好調研,必要的時候,能過一下原始碼實現(這個有點難?),否則很容易入坑。
筆者在使用libcurl作為httpclient的時候,也因為觸發了libcurl的一個bug,導致線上崩潰,當時連續通宵了兩個晚上,才解決。
一入C++深似海,從此XX是路人。
以候捷在<>上的一句話作為本文的結束語:
❝原始碼面前,了無祕密。
❞
共勉。