【InfoQ】博睿資料CTO孟曦東訪談實錄:可觀測性技術是未來發展方向

博睿資料發表於2022-09-08

差不多在五年前,分散式系統已經成熟,微服務架構尚未普及, 可觀測問題 就已經在桎梏技術團隊的工作效率。一個To C的軟體使用問題可能由客服發起,整條支撐鏈路的所有技術部門,都要逐一排查介面和日誌,流程非常原始,也非常低效。如果業務到達一個量級,支撐系統變多,兩名研發查上兩三個星期也是常事。

微服務架構普及後,問題變得更加嚴峻。一個服務被拆分成數個黑盒的、虛擬的微服務,故障排除徹底成為一種折磨。這一切都使業務的可觀測性成為2022年技術人必須關注的話題。

近日, 博睿資料創始人兼CTO孟曦東做客InfoQ《極客有約》,與大家一起聊聊可觀測技術究竟是什麼?

以下為訪談實錄:

InfoQ:微服務架構的普及對可觀測帶來了一些挑戰,這些挑戰又讓運維領域發生了怎樣的變化?

孟曦東: 可觀測不是一個新名詞。2018 年,CNCF 將其正式引入 IT 世界,該理論的出現則可以追溯至 2014 年前後,主要來自於控制學,希望透過外部輸出推斷內部的狀態變化。如今,技術棧發生了巨大變化,微服務可能構建在容器之上,容器又構建在虛擬機器上,虛擬機器則在物理機上,包括更復雜的網路支援,這讓定位排障遇到了前所未有的困難。CNCF 之所以將可觀測性帶到微服務領域也是希望能有更好的能力控制系統的執行狀態。

與傳統的監控相比,可觀測性的核心點還是有所區別的。監控可能更多在看現實狀態的變化,很直接,但並沒有表現出問題的核心點在哪。我們認為可觀測性是對現今技術架構非常好的適應,可以用另外一種模型來判斷風險所在位置,能更好地預防故障發生而不是簡單地降級、限流。

InfoQ:如今,大部分企業還停留在粗暴的降級階段,還是有意識做全域性可監控?

孟曦東: 可以分成兩類,一類是發展靠前的企業,在業務體驗或者使用者感知能力上面要求較高,內部對此有很多 KPI,比如出現問題需要一分鐘內發現,十分鐘內解決等;另一類是農林牧副漁等領域的傳統企業,目前手段還比較初級,只做到了單體的簡單監控,整個上層的應用體系還沒有完整建立起來。

InfoQ:具體到技術層面,可觀測問題可以分為四類,分散式鏈路追蹤、APM、NPM、RUM,方便介紹下這四者的核心思想嗎?

孟曦東: 從可觀測性的建設體系來看,需要有三種型別的資料。RUM 可能更多關心的是使用者側,比如使用者到底在使用瀏覽器、APP 還是小程式,使用體驗如何或者整個執行過程中的資料能力是如何表現出來的;NPM 可能更多在描述鏈路層面,因為這是必備通道,是建立從前端到後臺連線的必備過程,在描述整個資料流向的時候,流量資料又是什麼樣的表現;APM 把物理裝置層面的能力提升到了以應用程式碼級為主,可以看最詳細的程式碼狀態,或者依賴的中介軟體以及 JVM 狀態變化。整個鏈路追蹤分段做資料採集,資料來源可能不同,但模型的核心是構建出一套完整的資料鏈條來幫助我們更好地判斷業務受損到底是由哪個環節產生的問題。

InfoQ:APM 做到程式碼級別之後,還有進一步的改進空間嗎?

孟曦東: 改進空間肯定還是有的。第一,全鏈路可觀測性需要了解程式碼的整體邏輯,這樣才能更好地知道版本迭代時前後介面的變化;第二,我們也需要知道彼此之間的依賴項是什麼,從技術內部來看,鏈路是非常多樣化的,尤其是引用了容器雲之後,隨著 Pod 的增加和減少,鏈路變得錯綜複雜並且更加動態,我們需要有更完整的資訊資料來支撐我們做故障定位。

InfoQ:國內外目前在可觀測領域的技術發展現狀大概是什麼樣的?

孟曦東: 相對於國外來說,國內起步稍晚,我們可以看到國外有很多優秀的友商,在可觀測能力的構建上已經非常成熟,他們還與 DevOps 做融合,加強安全方面的能力等。我認為國內在可觀測性領域屬於起步階段,以博睿資料為例,我們今年才真正構建所謂的一體化全棧解決方案。

InfoQ:如何快速低成本地構建業務系統的可觀測性?

孟曦東: 構建一個所謂的可觀測性系統有三個要素,一是要有資料;二是背後有一個強大的異構能力的資料引擎;三是需要有高效的查詢。最直接經濟的方案是看現在的情況是什麼樣的,哪些需要採購商業化的產品,哪些選擇開源專案或者自研,最終對整體進行拼湊,這種方式會高效一些。

InfoQ:能否聊一下目前建設可觀測體系通常的路徑,比如說什麼型別,或者什麼規模的企業?

孟曦東: 大體分為三類,第一類是自研的,比如頭部的網際網路公司,自己的研發實力或者研發資源非常多,在公司的發展過程中沉澱了很多有價值的東西;第二類是基於開源做二次構建,比如腰部的公司,打磨出一個可能適合自己或者組織規模的模型,或許 APM 就可以,不一定是可觀測的解決方案;第三類是全部採買三方軟體,透過這種方式構建可觀測的能力平臺。

InfoQ:目前市場上提供這種可觀測的商用產品是不是也不多?

孟曦東: 國外的產品不少,因為今年 Gartner 的 APM 領域調研報告也增加了可觀測性象限,其中列出了一些新型公司。談到可觀測性需要解決的核心問題,也就是資料來源、對資料的理解以及分析利用,國內市場能完整覆蓋的方案少之又少,國外在該領域的純商業化公司更多一些。

InfoQ:大家比較熟知的專案 SkyWalking 是否適合微服務的架構?

孟曦東: SkyWalking 本身應該定義在 APM 領域更合適。如果是微服務,對探針端的能力是有要求的,據我們現在看到的,SkyWalking 還沒有真正做到類似商業公司的探針技術,還做不到全智慧的基於 K8s 的直接部署,動態探針以及自動命名。

InfoQ:可觀測性技術在解決資料孤島方面的作用是什麼?

孟曦東: 大多數使用者的監控系統還是比較多的,可能有幾套到十幾套不等,因為監控系統也有可能是由於不同的組織內部不同的部門構建的,這樣就勢必會造成一個問題,因為沒有從上層做統籌安排,把這些系統真正有機地組成在一起,供所有業務方去真正消費,孤島問題就比較嚴重。我們希望能把資料從相互割裂的體系裡面抽取出來,做一個統一的描述的模型,然後供不同的業務方去消費。不管是報警場景,還是運維場景,都可以落地到實際的業務場景裡面,這樣才能真正拉通。我們有一個很重要的特性就是三方資料的開放性或者相容性,可以把現有的標準整合到一個平臺裡面,做統一的標準化,統一的模型建設,統一的落盤,然後再拋掉上層做不同場景的消費能力的支援。

InfoQ:AI 在監控領域的作用?

孟曦東:AI 賦能到監控領域分為幾大方面的作用:第一也是最重要的是根因分析的能力,基礎是建立一體化的資料平臺;第二是希望可以做自動化的框架,不管是第三方的還是商業化的,透過我們的判斷觸發一些資訊讓業務做更有價值的動作,讓人力可以得到釋放。

InfoQ:如何看待國內可觀測廠商 SaaS 發展的一個前景?

孟曦東: 很多人都提出國內的 SaaS 發展與北美差異較大,我個人認為有幾個要素:一是國內的市場環境或者技術棧還未到一定程度,北美也是從基礎監控、做日誌、做 APM 慢慢累積到現在這個程度的,美國雲端計算的發展領先中國五六年的時間,所以北美很多業務應用更習慣於放在幾大雲上;第二,國記憶體在一些行業政策的監管要求,比如金融領域可能有一些資料方面的安全要求,這也就限制了公有云標準化 SaaS 能力的交付;第三,產品能力,這個問題不該回避,國內的可觀測能力確實還在起步階段,在整個能力構建圖譜上還有差距,如果產品沒有打磨好或者沒有特別好的能力價值輸出,就會影響客戶的買單意願。

InfoQ:OpenTelemetry 專案目前在可觀測領域比較受歡迎,這是為什麼?

孟曦東: 首先,OpenTelemetry 將原來部分定義的標準真正體系化了。我們很早就有了 OpenTracing ,但那只是定義了追蹤資料的標準格式。任何企業或組織的技術人員,都希望能把某些能力標準化,這樣不管是相容第三方,還是自我迭代都會有一致性或者維護成本方面的好處。其次,該專案提供了非常豐富的 SDK 和 API 能力,可以讓開發者和企業快速使用。最後,該專案基於 CNCF 基金會,其中有很多優秀的人物制訂了標準。

InfoQ:在生產環境當中,如何選出靠譜的工具去解決可觀測性的問題?

孟曦東: 在生產中,環境是多樣的,我們首先要找到能與當前業務發展情況較好匹配的工具,畢竟每一款工具或者平臺都不是萬能的,企業會有很多個性化的要求。對於企業級服務,是不是真的有一些標準或者制度可以約束出來,提供給 IT 人員做問題定位。在整個工作流裡面,QA 測試完以後是否能覆蓋到所有場景。

我們認為,對任何企業或者 IT 組織來講,APM 工具都是必備的,因為可以把不同角色的人用同一種話術連線在一起。我們做運維、研發,或者業務 Owner,需要一個平臺把這些標準融合在一起,避免大家產生不必要的糾紛。在 APM 之外,使用者肯定還會再構建更完整的能力平臺,因為不能只看到內部,還要看到除了資料中心以外的人的反應。因為這部分可能還會需要依託網際網路,依託前端業務應用場景定位可能產生的問題,我認為這是一個有機的組合,根據不同的階段以及人群使用場景構建出一套自己的體系。

InfoQ:博睿資料前段時間也在可觀測這部分做了一些事情,釋出了一體化智慧可觀測平臺 ONE,我們怎麼理解這裡面的“一體化和智慧可觀測”?

孟曦東: 一體化,我們認為就是要全面,資料能力要能覆蓋到整個系統的雲管邊端的全資料鏈條。第一步是用三方能力接入或者博睿資料提供自己的資料採集能力把它構建起來。第二步體系化或者標準化的過程,真實構建一個立體的組織模型,否則會導致治理或者定義指標能力時出現混亂。第三步,我們認為一體化也是為 AI 提供一個底座,我們認為未來 AI 的價值不可或缺,在主動巡檢、過程中的異常監測以及後面的根因分析,AI 技術在其中發揮了很大的價值。

InfoQ:國內目前可觀測市場的未來發展技術方向是什麼?博睿資料後續有什麼規劃?

孟曦東: 如果我們認為 IT 運維是為了業務做服務或者做支撐,不是成本中心,IT 本身就會離業務越來越近,這肯定是一個必不可少的發展路徑。反過來想,希望 IT 輸出的價值可能也會發生改變,所以我們認為可觀測性本身的核心定義就是 Google 談的定位問題。如果業務是敏捷的,某個時間點的彈性或者高可靠無法代表全域性。隨著業務規模的逐漸膨脹,可觀測性需要真正把衝突從根上解決,因為最終還是要定位問題,透過定位到的問題做好事前的風險防範、事中的問題排障以及事後的反思。我認為可觀測性肯定是未來,不管是由於雲端計算還是其他技術的發展。

博睿資料今年希望先把一體化做紮實,再在其上構建其他的能力模組。現在因為測試左移越來越流行,我們準備將安全與 DevOps 結合在一起,同時在知識庫和其他一些 ITSM 工具的整合上面下功夫,希望能幫助到客戶做成一個有機的定位平臺。

在未來發展中,博睿資料將從 可觀測性的廣度和深度 兩個方面出發,不斷豐富標準化的資料。並基於此深化資料相關性,加之博睿資料自研的 Swift-AI 中臺賦能,從而給出更多更精準的資訊判斷,幫助客戶快速落地高效可持續的觀測--判斷--最佳化閉環。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70003066/viewspace-2914029/,如需轉載,請註明出處,否則將追究法律責任。

相關文章