從 IDC 到雲原生:穩定性提升 100%,成本下降 50%,熱聯集團的數字化轉型與未來展望

阿里云云原生發表於2024-11-18

作者:金峰(項良)、朱永林、趙世振(寰奕)

公司簡介

杭州熱聯集團股份有限公司成立於 1997 年 10 月,是隸屬杭州市實業投資集團的國有控股公司。公司專業從事國際、國內鋼鐵貿易黑色大宗商品及產業服務,業務品種涵蓋鋼鐵原料、鋼鐵產品及以銅為主的有色金屬等。

2023 年,熱聯集團實現銷售總量 9634 萬噸,銷售收入 2555 億元,業績增長 50%。

2016-2023 年,公司連續八年蟬聯中國鋼貿企業百強榜綜合榜前三。入選國務院國資委“雙百行動”企業名單,以及浙江省政府“鳳凰計劃”名單,被列入浙江省首批內外貿一體化“領跑者”培育企業。

目前熱聯集團的網點建設遍佈國內 31 個城市及境外 17 個國家和地區,業務範圍覆蓋全球 52 個國家和地區。在全球鋼鐵、橡膠等大宗商品貿易行業,“熱聯”品牌享有優異的商業信譽和企業形象。

業務高速發展下面臨的挑戰

早期,熱聯自主研發了一系列垂直業務功能系統,包括大宗貿易相關的資金管理和交易系統(如保融資金管理系統、投資系統、量化交易系統等)、企業內部管理相關係統(如 HR 系統、報銷系統、企業招投票系統等)、企業經營管理相關係統(如自研 ERP、租賃 SAAS 系統),以及物流交付相關係統(如配送系統、TM、WMS)。這些系統部署在 IDC 的自建 K8S 中,採用微服務架構,透過 Spring Cloud + Nacos 實現微服務應用間的遠端呼叫和服務發現,並使用 APISIX 作為南北向閘道器,實現統一的認證、鑑權和入口流量管控。

然而,隨著業務的迅速發展和品牌的日益壯大,原有的技術架構逐漸顯露出多方面的瓶頸和挑戰:

  1. 軟體迭代效率低下: 由於所有業務都部署在 IDC 中,每次新業務上線或系統擴容時都需要經過複雜的招採流程,導致交付週期漫長,業務人員對效率問題怨聲載道,運維人員也倍感壓力。
  2. IT 運維難度大: 開源技術產品的複雜性要求運維人員具備較高的專業技能。例如,Nacos 和 APISIX 的安全漏洞修復和版本升級給運維人員帶來了不小的挑戰,尤其是出現問題後排查過程非常複雜。
  3. 穩定性難以保障: IDC 中的伺服器和網路裝置需要專門的供應商和 ISV 來維護,且面臨裝置過保等問題。部分開源中介軟體存在穩定性風險,特別是 APISIX,其部署架構包括控制檯、服務端和 ETCD 三個元件。ETCD 作為核心中樞,負責儲存和推送所有路由規則,一旦崩潰會導致整個閘道器不可用。由於 ETCD 的運維複雜且問題排查困難,每次崩潰後只能基於備份恢復並重啟閘道器。
  4. 資源成本高: 熱聯的業務具有明顯的峰谷特性,非工作時間段請求量極低。但由於招採流程複雜且對穩定性要求高,機房中長期需要冗餘一定的機器資源,增加了運營成本。

為了解決這些問題,熱聯組建了一個由資深技術專家和運維人員組成的研究小組,對市場上的各種解決方案和多家雲廠商進行了全面調研和比較,希望找到一套能夠實現以下目標的雲廠商:

  1. 核心技術必須是自主可控並且支援信創。
  2. 無縫的遷移現有的基礎架構到完全符合雲原生標準的技術棧,同時確保業務過渡時的無損。
  3. 在微服務架構的 Paas 層中介軟體和資料庫等產品是業界權威且產品自身有很高的可靠性,並且經歷了多年的市場驗證。
  4. 靈活性至上,符合業界的主流規範、相容開源,且提供較強的開放能力,企業可以根據自身的具體情況和標準自主定製,不受平臺限制。

最終,熱聯在阿里雲的專家團隊的幫助下,找到了一條相對可行的解決路徑,阿里雲提出的全棧上雲+雲原生解決方案不僅可以滿足熱聯提出的所有研發、運維和穩定的要求,還為企業未來的技術發展提供了強大的支援和靈活的擴充套件性。

熱聯的核心業務系統從 IDC 全棧遷移到阿里雲後,穩定性提升了 100% 、研發效率提升了 30% 、綜合成本下降了 50%

微服務架構的效能與穩定性提升

為了提升研發效率和穩定性、熱聯的核心業務系統都是微服務架構,開發語言以 Java 為主,並且全面擁抱了 Spring Cloud 的生態。一直以來熱聯對微服務技術都有比較高的追求。因此在雲平臺的選型上,微服務技術的相關產品需要滿足高開放性、高成熟度、高普及度、高可用,四條標準缺一不可。

阿里雲上的 MSE(微服務引擎)源自阿里巴巴微服務架構的最佳實踐,是一個面向業界主流開源微服務生態的一站式微服務平臺,提供註冊配置中心、雲原生閘道器、微服務治理和分散式任務排程能力。在高可用性方面自 08 年誕生以來歷經了多年雙十一考驗。雲上的商業化產品均是多可用區容災架構,承諾可用性 SLA 99.95%。在高成熟度和高普及度方面,MSE 的註冊中心 Nacos 和雲原生閘道器 Higress 在開源社群都有比較強的影響力,並且產品的創始人團隊穩定,出現問題後能第一時間找到專業的技術人員兜底。

因此,MSE 的 Nacos 和雲原生閘道器就成了微服務技術平替的最佳選擇。

APISIX 遷移到雲原生閘道器

首先是閘道器的遷移,阿里的專家們在充分了解的熱聯 APISIX 的用法後,針對與我們目前 APISIX 上的所有功能用法,雲原生閘道器都給出了功能對標文件和使用實踐。

在遷移測試過程中,阿里的專家們,針對與我們提出的任何問題都能第一時間響應並快速解決問題,最典型的是在自定義認證鑑方面,原有熱聯使用的是 APISIX 的 forward-auth,forward-auth 外掛實現鑑權比較靈活,使用者可以任意定義鑑權服務並暴露鑑權服務的 url,然後鑑權完成後,可以透過 request header 把 clientip、目標路由的 url、token 都傳遞下去,而現有云原生閘道器預設的自定義鑑權無辦法很好的滿足需求,如果想用起來需要我們做一些程式碼改動。在瞭解到了我們的問題以後,阿里的專家們只用了 2 天時間就為我們提供了成熟且穩定的 ext-auth 外掛,用於實現個性化的自定義鑑權。

在完成所有功能驗證後,熱聯準備把全部流量遷移到雲原生閘道器時,阿里的專家們為我們提供了平滑切流方案。

透過 DNS weight 的方式熱聯把所有閘道器流量都切到了雲原生閘道器以後,再也沒有出現過莫名其妙崩潰的問題,閘道器的可用性達到了 100%。 為什麼能夠取得這麼好的結果呢?主要得益於以下幾點:

  1. 雲原生閘道器孵化自阿里內部,經過歷年大促的驗證,積累了一套高可用保障方案,從研發時、執行時、變更時來控制風險提升穩定性,在每個階段各自有手段去保證其高可用目標。

  1. 可擴充套件性對於軟體的重要性毋庸置疑,相比 APISIX 使用的 Lua 擴充套件機制,雲原生閘道器既可以支援 Lua 擴充套件,同時也支援 Wasm(WebAssembly)擴充套件,Wasm 外掛天然支援 C++、Rust、Golang、JS 等多語言編寫,原生提供外掛熱插拔與外掛配置熱更新能力,毫秒級生效,配置變更對長連線無損,且 Wasm 外掛執行在安全沙箱中,外掛自身的漏洞或者異常崩潰不會影響閘道器宿主程序,對於異常崩潰的外掛也提供了自恢復機制,無需人工干預。

在效能上,目前隨著網路安全愈加受重視,現在網際網路上已經普遍使用 HTTPS 進行傳輸加密,在閘道器側,用於實現 HTTPS 的 TLS 非對稱加密演算法是佔用 CPU 資源的大頭。針對此場景,雲原生閘道器使用了 CPU SIMD 技術實現了 TLS 加解密演算法的硬體加速,透過壓測資料表明雲原生閘道器採用軟硬一體的加速方案相比普通 HTTPS 請求 TLS 握手時延降低一倍,極限 QPS 提升 80% 以上。

在運維效率上,整體提升了 50%, 這主要得益於雲原生閘道器本身是全託管、免運維的。無論例項的開通還是版本的升級亦或是規格的擴縮容都很方便,同時又提供了定時+按指標的彈效能力。令人驚喜的是雲原生閘道器同阿里雲上的數字證書管理、註冊中心、微服務治理、ARMS、SLS 等產品都做了深度極成。

尤其是可觀測方面,雲原生閘道器提供了豐富的可觀測資料,包括流量全域性看板、日誌檢索、業務 TOP 榜、延遲/失敗率/錯誤碼等多種響應指標等,並輔以報警管理,使運維人員對服務的整體狀態及異常情況盡在掌握。

開源 Nacos 遷移 MSE

熱聯透過 MSE SYNC 工具,把開源的 NACOS 服務都平滑的遷移到了商業版上面。

相較開源版的 Nacos,商業版產品在穩定性、效能和運維成本等方面都具備了明顯的優勢,這也極大的解放了研發和運維人員的生產力,讓我們能更加專注業到務開發和運維上。

未來展望

熱聯集團在進行了雲原生架構的升級與探索後,顯著提升了業務系統的穩定性和敏捷性。這一轉變不僅為公司衝擊更高的銷售目標奠定了堅實的技術基礎,也標誌著熱聯在數字化轉型道路上邁出了關鍵一步。透過採用微服務、容器化等先進技術手段,熱聯能夠更加靈活地響應市場變化,快速迭代產品和服務,滿足客戶日益增長的需求。

這只是熱聯雲原生之旅的一個起點。隨著對雲原生技術更深層次的理解與應用,預計未來熱聯將在以下幾個方面實現進一步突破:

  1. 持續增強系統穩定性: 基於雲原生的最佳實踐,如自動故障恢復機制、彈性伸縮能力等,可以有效降低因突發流量或硬體故障導致的服務中斷風險,確保使用者享受到無縫連線的優質體驗。
  2. 大幅提升運營效率: 利用DevOps理念結合自動化工具鏈,加快軟體開發週期的同時保證高質量交付,使得熱聯能夠在競爭激烈的市場環境中保持領先優勢。
  3. 最佳化成本結構: 透過精細化資源管理和按需付費模式,熱聯將能夠更好地控制IT支出,釋放更多資金投入到核心競爭力的構建上。
  4. 促進創新文化形成: 鼓勵團隊成員積極探索新技術新方法,營造開放包容的工作氛圍,激發員工創造力,推動企業不斷向前發展。

展望未來,熱聯將繼續深化其在雲原生領域的研究與實踐,致力於成為國內領先乃至國際一流的全球化大宗商品產業服務商。我們相信,在強大技術支援下,熱聯定能在全球範圍內樹立起中國企業的良好形象。

相關文章