記一次線上崩潰問題的排查過程

高效能架構探索發表於2021-11-10

大家好,我是雨樂!

前幾天,突然收到報警,線上服務崩潰,然後自動重啟。

由於正值雙十一期間,業務以穩定為主,線上服務崩潰,這可不是一件小事,趕緊登陸線上伺服器,分析原因,迅速解決。

藉助這篇文章,記錄下整個崩潰的分析和解決過程。

收到報警

上午上班後,正在划水,突然收到郵件報警,如下: 報警郵件

問題分析

馬上登入線上伺服器,gdb除錯堆疊資訊。

堆疊資訊如下:

#0  0x0000003ab9a324f5 in raise () from /lib64/libc.so.6
#1  0x0000003ab9a33cd5 in abort () from /lib64/libc.so.6
#2  0x0000003abcebea8d in __gnu_cxx::__verbose_terminate_handler() () from /usr/lib64/libstdc++.so.6
#3  0x0000003abcebcbe6 in ?? () from /usr/lib64/libstdc++.so.6
#4  0x0000003abcebcc13 in std::terminate() () from /usr/lib64/libstdc++.so.6
#5  0x0000003abcebcd32 in __cxa_throw () from /usr/lib64/libstdc++.so.6
#6  0x00000000006966bf in Json::throwRuntimeError(std::basic_string<char, std::char_traits, std::allocator > const&) ()
#7  0x0000000000681019 in Json::Reader::readValue() ()
#8  0x000000000068277c in Json::Reader::readArray(Json::Reader::Token&) ()
#9  0x0000000000681152 in Json::Reader::readValue() ()
#10 0x00000000006823a6 in Json::Reader::readObject(Json::Reader::Token&) ()
#11 0x00000000006810f5 in Json::Reader::readValue() ()
#12 0x0000000000680e6e in Json::Reader::parse(char const*, char const*, Json::Value&, bool) ()
#13 0x0000000000680c52 in Json::Reader::parse(std::basic_string<char, std::char_traits, std::allocator > const&, Json::Value&, bool) ()
......

在上面堆疊資訊中可以看到在呼叫Json::Reader::parse後經過Json::Reader::readValue等呼叫,最後再呼叫Json::Reader::readValue時呼叫Json::throwRuntimeError丟擲異常。

檢視呼叫Json::throwRuntimeError函式的地方:

src/lib_json/json_writer.cpp:    throwRuntimeError("commentStyle must be 'All' or 'None'");
src/lib_json/json_reader.cpp:  if (stackDepth_g >= stackLimit_g) throwRuntimeError("Exceeded stackLimit in readValue().");
src/lib_json/json_reader.cpp:  if (stackDepth_ >= features_.stackLimit_) throwRuntimeError("Exceeded stackLimit in readValue().");
src/lib_json/json_reader.cpp:    if (name.length() >= (1U<<30)) throwRuntimeError("keylength >= 2^30");
src/lib_json/json_reader.cpp:    throwRuntimeError(errs);
src/lib_json/json_value.cpp:    throwRuntimeError(
src/lib_json/json_value.cpp:    throwRuntimeError(
src/lib_json/json_value.cpp:JSONCPP_NORETURN void throwRuntimeError(JSONCPP_STRING const& msg)
src/lib_json/json_valueiterator.inl:  throwRuntimeError("ConstIterator to Iterator should never be allowed.");

進入對應的函式

bool Reader::readValue() {
  if (stackDepth_g >= stackLimit_g) throwRuntimeError("Exceeded stackLimit in readValue().");
  ++stackDepth_g;
  ... ...
  --stackDepth_g;
  return successful;
}

發現,在滿足條件

stackDepth_g >= stackLimit_g

的時候,會呼叫throwRuntimeError,那麼分析下stackDepth_g和stackLimit_g的宣告定義:

static int const stackLimit_g = 1000;
static int       stackDepth_g = 0; 

問題基本明瞭:

stackDepth_g是個靜態全域性變數,執行緒不安全,而出問題的服務是多執行緒的

在此準備吐槽下,筆者使用jsoncpp物件的時候,都是線上程內部一個區域性變數,因此不會存在多執行緒訪問同一個區域性jsoncpp物件的時候,因此確定就是因為全域性變數多執行緒訪問導致的。一個開源的專案,裡面竟然有全域性變數,這在規範裡面是不被允許的。

然後谷歌搜尋了下大家都有過類似的問題,再次吐槽下。

問題解決

解決崩潰問題,首先需要看看是不是使用方式的問題,或者找一個執行緒安全的介面,再或者用其他庫進行替換。

修改jsoncpp原始碼

為了解決執行緒安全的問題,有兩種方案: 1、在操作全域性變數的時候,加上mutex,這個無非對效能要求很高的業務一個致命打擊,為了提高業務效能,所以內部鎖都使用其他方式進行了優化,比如mutex使用雙buffer方式進行了替換,雖然mutex的一個加鎖解鎖過程也就100ns。

2、將上述全域性變數放入Json物件中,這樣區域性變數就不會存在崩潰現象,但是這種方案存在一個問題,就是改動點很大,且需要大量嚴格的測試,放棄。

所以綜合考慮上述兩點,決定採用其他更安全可靠的方式來解決線上崩潰問題。

使用rapidjson

之所以採用rapidjson,是因為線上幾十個服務,大部分都使用rapidjson,只有線上崩潰的這個服務等少數幾個服務,因為歷史原因,用的jsoncpp。

先介紹下rapidjson,下述內容來自於rapidjson官網:

  • RapidJSON 是一個 C++ 的 JSON 解析器及生成器。它的靈感來自 RapidXml。

  • RapidJSON 小而全。它同時支援 SAX 和 DOM 風格的 API。SAX 解析器只有約 500 行程式碼。

  • RapidJSON 快。它的效能可與 strlen() 相比。可支援 SSE2/SSE4.2 加速。

  • RapidJSON 獨立。它不依賴於 BOOST 等外部庫。它甚至不依賴於 STL。

  • RapidJSON 對記憶體友好。在大部分 32/64 位機器上,每個 JSON 值只佔 16 位元組(除字串外)。它預設使用一個快速的記憶體分配器,令分析器可以緊湊地分配記憶體。

  • RapidJSON 對 Unicode 友好。它支援 UTF-8、UTF-16、UTF-32 (大端序/小端序),並內部支援這些編碼的檢測、校驗及轉碼。例如,RapidJSON 可以在分析一個 UTF-8 檔案至 DOM 時,把當中的 JSON 字串轉碼至 UTF-16。它也支援代理對(surrogate pair)及 "\u0000"(空字元)。

不過rapidjson為了效能,在使用上面需要極其小心。

筆者之前踩過類似坑,區域性字串賦值給rapidjson物件,結果rapidjson並沒有馬上使用該區域性字串,而是在最後才會訪問區域性字串裡面的內容,而此時,區域性字串早已出了作用域,導致rapidjson獲取的內容是亂碼。

結語

在使用開源專案的時候,一定要做好調研,必要的時候,能過一下原始碼實現(這個有點難?),否則很容易入坑。

筆者在使用libcurl作為httpclient的時候,也因為觸發了libcurl的一個bug,導致線上崩潰,當時連續通宵了兩個晚上,才解決。

一入C++深似海,從此XX是路人。

以候捷在<>上的一句話作為本文的結束語:

原始碼面前,了無祕密。

共勉。

相關文章