邊緣計算場景下雲邊端一體化的挑戰與實踐

騰訊雲原生發表於2021-02-03

本文整理自騰訊雲專家工程師王繼羅在 2020年12月深圳 Qcon 大會上的分享內容——邊緣計算場景下雲邊端一體化的挑戰與實踐

邊緣計算想必大家都已經聽過了,但是如何將業務擴充套件到邊緣,從而實現更大的業務價值呢?

關於這個問題,騰訊雲早在幾年前就已開始進行思考,並且著手打造了雲邊端一體化的超融合平臺,目的是希望能夠讓業務可以更容易落地到邊緣。

今天,我們就從以下三個部分展開,跟大家分享騰訊雲在建設超融合平臺時的一些經驗:

  • 第一部分:主要介紹邊緣計算有什麼作用、業務落地邊緣存在哪些挑戰、以及為什麼要有云邊端一體化;

  • 第二部分:主要介紹騰訊雲在打造超融合平臺時的一些實戰經驗和進展;

  • 第三部分:介紹 3 個邊緣業務落地案例。

雲端計算髮展趨勢

提到雲端計算,大家第一時間就會想起中心雲端計算。中心雲端計算是一種集中式架構,計算資源位於中心機房,由雲廠商統一維護。那麼,這種模式有什麼好處呢?

  1. 業務方不再需要管理底層資源,更能聚焦於業務本身,降低了管理成本;

  2. 業務方可以靈活高效地申請、使用、退還底層資源,從整體上提高了資源利用率,降低了資源的使用成本。

而邊緣計算,是一種分散式計算,計算資源分散在離資料來源比較近的地方,達到就近提供服務的目的。從時間維度上看,邊緣計算的發展可以分為 3 個階段:

  1. 技術形成期,1998 - 2013。最早可以追溯到內容分發網路(CDN),主要用途把資料快取在離使用者近的位置,達到縮短資料下載時間,提高使用者體驗的目的。

  2. 快速發展期,2014 - 2017。由於滿足萬物互聯的需求,引起國內外學術界和產業界的密切關注,各機構紛紛出臺相關的白皮書。

  3. 實際落地期,2018 - ? 隨著 5G 的發展,出現越來越多的落地場景,進入政府工作指導報告,基本上可以預見邊緣計算會開始爆發。

邊緣計算有什麼用

前面我們講了邊緣計算是什麼,有些人就會有這樣一個疑問:既然我們已經有了中心雲端計算,為什麼還需要邊緣計算?邊緣計算能帶來什麼價值呢?

其實隨著技術不斷地發展,雲端計算的範疇已經從中心不斷地向邊緣擴充套件,演變成了中心雲-邊緣雲-端裝置協同工作的架構模式。

為什麼會發生這樣變化呢?主要是因為需求和場景在不斷變化,尤其是許多傳統行業在資訊化改造過程中提出來更多新需求,如:工業製造、港口物流、交通能源等等。

以智慧製造為例,智慧製造的本質就是裝置智慧化、資訊化,整個系統的工作流程是:採集資料、處理資料、指導生產。這帶來了兩個方面的問題:

  1. 高實時性要求。很多工業資料具有極強的實時性,過期時間非常短,往往只有幾毫秒,這就要求採集資料、資料處理、指導生產的整個過程需要在幾毫秒內完成。如果上傳到雲端處理,然後從雲端返回控制指令,整個過程就會耗時比較長,顯然不能滿足時效性要求,會造成嚴重的後果,比如製造出的產品精度不夠,或者次品率比較高,所以就近處理資料是智慧製造的核心。

  2. 海量資料如何處理。智慧工控裝置、感測器源源不斷地產生工業產品及環境方面的資料,帶來很高的傳輸和儲存成本,這些成本甚至超過智慧化帶來的利潤,反而成了工業往智慧化轉型的阻礙。另一方面,這些資料 90% 以上都是無效資料,如果可以儘可能早地篩選出有用資料,去除無效資料,就可以很好地降低傳輸和儲存成本。

再舉一個高清視訊的例子,4K的高清視訊需要至少 40M 頻寬,頻寬容量和成本是我們必須考慮的重要因素,相對於中心機房,邊緣機房的總頻寬容量要大,單價也更便宜,因此這類服務很適合部署在邊緣。

總的來說,邊緣計算可以帶來4個方面的好處,容量更大、時延更低、成本更低、支援本地化處理。

邊緣計算架構

前面我們講了雲端計算在逐步演變成中心雲-邊緣雲-端裝置協同工作的模式,那新模式下的架構如何呢?

以騰訊云為例,中心雲通常指的是 IDC 機房,邊緣雲依次會是 ec、oc、mec 機房,現場裝置一般位於資料來源附近,比如:家庭閘道器、交通燈路口、港口/園區/礦山內部。

通常物聯裝置與邊緣端裝置之間的時延可以控制在 2 ms內,適合處理實時性要求極高的業務資料,比如工業控制類的業務。

與邊緣雲之間的時延可以控制在 10ms 內,可以滿足實時音視訊、ARVR、雲遊戲的業務場景。

這就是邊緣計算的大致架構情況。

帶來的挑戰

下面我們一起看一下邊緣計算場景會帶來哪些新挑戰。

  1. 異構嚴重。在軟硬體兩方面都有體現,像中心雲和邊緣雲通常採用x86和linux 標準發行版,而邊緣資源由於需要考慮成本以及業務的特殊要求很可能是採用成本更便宜或者是定製化的軟硬體方案。

  2. 規模龐大。根據各種權威機構預測,2025年全球物聯裝置數量會突破千億,分佈在全球各地。如何去管理這麼大規模的裝置也是一項很有挑戰的任務

  3. 環境複雜。位於雲機房的裝置還好,很多終端裝置常常位於惡劣的環境,你比如鍊鋼廠的很多裝置長期處於高溫環境、水利監測方面的裝置部署環境往往都比較潮溼。裝置網路環境也是各種各樣,有線的、無線的,無線又有 WIFI、4G5G網路、zigbee等等。

  4. 標準不統一。很多地方還處於沒有標準,或者是有很多標準但沒有一種公認標準,尤其是在管理方式上極其不統一。

這些挑戰帶來的後果就是:

  1. 效率下降。包括研發測試、交付部署、升級運維等等

  2. 管理困難。規模很大,各方面環境很複雜,標準也很多,想要管好我們的資源也變得困難重重。

  3. 可靠性降低。邊緣環境很惡劣,如何在惡劣的環境下保證服務質量也是一個難題

雲邊端一體化的意義

邊緣場景有如此多的挑戰,帶來的影響就是業務落地非常困難,這個問題直接阻礙了行業的發展。為了降低業務落地門檻,促進行業順利發展,雲邊端一體化的就顯得很有必要。

一體化體現在多個方面:

  1. 統一管理。首先,我們要把複雜多變底層資源管理方案統一起來,儘量減少業務對底層細節的不必要感知,比如硬體架構、作業系統、網路環境等等。其次是提供的管理能力要儘可能與中心雲保持統一,比如監控告警、釋出運維等等各種業務常用的基礎能力。

  2. 雲邊協同。在邊緣計算場景下,把業務從中心下沉到邊緣是很自然的事情,但是還不夠。通常都需要讓邊緣和雲協同工作起來,比如:把邊緣的有用資料收集到中心進行分析處理,然後繼續反饋到邊緣也是非常有必要的。以AI場景為例,我們可以把推理放到邊緣進行,然後從邊緣收集資料在中心進行訓練,訓練好的模型又下發到邊緣。另外,雲上的能力也需要形成聯動,比如把邊緣的有用資料收集上來,在雲上做呈現和再加工。

  3. 資源排程。邊緣計算場景下資源很分散,負載隨著時空不同而差異很大,如何根據時空差異對資源做合理有效的調節,使資源使用達到最佳效果也是一件很有意義的事情。合理的資源排程可以讓系統變得更高效、穩定、低成本。

超融合平臺的使命

上面我們一起探討了邊緣計算的挑戰和雲邊端一體化的意義,騰訊雲幾年前就開始往這方面投入資源,經過多年沉澱逐步建設了囊括方方面面的超融合平臺,接下來再和大家分享下騰訊雲在超融合平臺建設方面的實踐。

在建設初期,大家思考得最多的問題就是什麼是超融合平臺,我們希望超融合平臺給業務帶來什麼樣的好處。經過長時間的摸索,我們確定了超融合平臺的使命:讓邊緣資源像中心雲資源一樣容易管理。

簡單來說就是,從平臺層面遮蔽底層的複雜性,所有的基礎能力盡可能與中心雲對齊,從而讓業務使用起來感受不到太多差異,業務方可以更加聚焦,把精力集中於具體業務研發,最終讓所有的事情都變得簡單高效。

如何達成這種效果

方向:
  1. 完全自研。從零開始,代價很高;不具有普適性,難以推廣。

  2. 擁抱雲原生。雲原生是一種生態,囊括了方方面面的能力,我們可以基於這些能力,而不是重複造輪子,更聚焦於解決邊緣場景的特殊性,達到事半功倍的效果。

方案:
  1. 使用原生 Kubernetes。並非針對邊緣計算場景,直接在邊緣使用會有一些問題。

  2. 魔改 Kubernetes。門檻高,代價大,相容性問題不可忽視。

  3. 增強 Kubernetes。遵守 Kubernetes 標準,靈活,開放,學習成本低,使用起來容易。

TKE Edge

TKE Edge 是騰訊雲基於原生 Kubernetes 研發的邊緣計算容器系統,它的主要目的是遮蔽錯綜複雜的邊緣計算物理環境,為業務提供一種統一的、標準的資源管理和排程方案。其部分能力已經開源為 SuperEdge 專案。

img

TKE Edge 有多個特點:

  1. Kubernetes 原生。以無侵入的方式將 Kubernetes 強大的容器編排、排程能力擴充到邊緣端,其原生支援 Kubernetes,完全相容 Kubernetes 所有 API 及資源,無額外學習成本。
  2. 邊緣自治。提供 L3 級邊緣自治能力,當邊緣節點與雲端網路連線不穩定或處於離線狀態時,邊緣節點可以自主工作,化解了網路不可靠所帶來的不利影響。
  3. 分散式節點健康監測。是業內首個提供邊緣側健康監測能力的開源容器管理系統。SuperEdge 能在邊緣側持續守護程式,並收集節點的故障資訊,實現更加快速和精準的問題發現與報告。此外,其分散式的設計還可以實現多區域、多範圍的監測和管理
  4. 內建邊緣編排能力。能夠自動部署多區域的微服務,方便管理執行於多個地區的微服務。同時,網格內閉環服務可以有效減少執行負載,提高系統的容錯能力和可用性
  5. 內網穿透。能夠保證 Kubernetes 節點在有無公共網路的情況下都可以連續執行和維護,並且同時支援傳輸控制協議(TCP)、超文字傳輸協議(HTTP)和超文字傳輸安全協議(HTTPS)。

超融合平臺

超融合平臺是以底層IaaS為基礎,以TKE Edge為粘接,整合大量騰訊雲上能力和業務的邊雲聯動平臺,平臺有三大特點:

  1. 開放性。在 IaaS 資源側,除了可以接入騰訊的資源,還可以很方便地接入使用者已有的計算資源:如其他雲廠商伺服器、使用者自建機房、智慧裝置等等。
  2. 整合性。平臺整合大量雲上基礎服務能力,雲監控、雲日誌、雲運維等,能滿足大部分使用需求;另外還打通了騰訊雲資源,邊緣計算機器、騰訊雲智慧閘道器裝置等等。
  3. 易用性。功能使用方式基本與中心雲使用方式保持一致,無須學習額外的使用知識。

邊緣資源建設情況

  1. 邊緣計算機器(Edge Computing Machine,ECM)。該產品通過將計算能力從中心節點下沉到靠近使用者的邊緣節點,提供低時延、高可用、低成本的邊緣計算服務,目前已開放 300+ 節點,全國覆蓋。產品主頁:https://console.cloud.tencent.com/ecm

  2. 一體化中心。該產品以騰訊雲自研的 Mini T-Block 的移動資料中心基礎設施為載體,融合 5G、邊緣計算、物聯網等技術能力,以及引入騰訊雲邊緣計算 IaaS/PaaS/SaaS平臺產品能力,支援雲遊戲、4K直播、機器人等5G 2C和2B業務,提供全面創新、可交付型的5G邊緣計算整體解決方案。

  3. 邊緣智慧閘道器。該產品是騰訊面對物聯網邊緣應用場景的工業級裝置,提供IoT裝置接入、AI本地分析、邊雲協同等功能,具有小體積、高可靠、多網路、超靜音、易管理等特性,適用於園區安防、智慧零售、電力巡檢、智慧路燈、智慧交通、水利監測、工業質檢等場景。

邊緣業務落地案例

音視訊業務實踐

  1. 資源量極大,分佈極廣,異構很嚴重。開發時需要考慮適配不同的硬體環境,測試的工作量成倍增加,釋出上線更是相當麻煩。

  2. 如果是每個機房部署一套 K8s,一則是帶來的額外資源開銷成本不可忽視,二則會出現上千個叢集基本上已經無法管理。

  3. 接入超融合平臺後,通過容器化技術最大程度遮蔽掉底層資源異構,叢集數量可以從上千個減少到幾十套。開發、測試、釋出運維成本下降明顯。

工業雲

工業雲的底層是一個私有云機房,上面部署許多工業領域方面的管理系統。其中交付和運維是他們最頭痛的兩個問題。以往都是派遣交付團隊去客戶現場部署,交付一套系統少則半個月,日常運維、擴容等基本都需要去現場實施,效率很低,成本極高。

對接到超融合平臺後,他們的交付精簡成只需在使用者環境中執行一條命令,日常運維等操作全部在雲上完成。

另一個是工業增值業務,以往都是使用者選中需要的增值業務,籤合同,去現場部署,客戶付錢,流程繁瑣,週期很長。現在做出了雲上工業電商模式,使用者把業務加到購物車,自行下單後業務實時生效。

混合資源管理

這個場景的特點是資源型別很多,有云主機、自建機房、邊緣智慧裝置,網路環境也很複雜:4/5G、單向網路,都有。

以車路協同為例,通常在一個區域有一個雲中心,上面執行車路協同相關的系統管理服務;雲中心之下是邊緣雲小機房,數量從幾個到上百個不等,主要做資料儲存;再下面是路口智慧裝置,執行 AI 推理方面的服務,負責處理路口攝像頭視訊資料;

以前的管理方式是在中心雲和邊緣雲均部署一套 K8s,路口智慧裝置由於資源有限不足以部署完整的 Kubernetes 叢集,未容器化。這場景兩大主要痛點是:

  1. 叢集數量太多,管理起來是一個沉重的負擔。另一個是服務更新和配置升級很麻煩,需要一個一個叢集操作,很容易遺漏。
  2. 路口智慧裝置由於未容器化,無論是服務升級還是線上 debug 均不方便。

由於超融合平臺不要求邊緣資源在同一內網,很方便就在同一個叢集內同時管理中心雲、邊緣雲、路口裝置,很好地解決了上面提到的兩個痛點。

【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊,掃碼關注同名公眾號,及時獲取更多幹貨!!

相關文章