華為雲地協同解決方案加速網路AI規模應用

陶然陶然發表於2020-09-27

  人工智慧經歷了六十多年的浮浮沉沉,隨著計算算力的進步,演算法的創新和網際網路發展下的海量資料積累,人工智慧技術未來十年將煥發出新的活力,成為最具有衝擊力的科技發展趨勢之一。

  電信網路作為資訊通訊的基礎設施,具有應用人工智慧技術的巨大空間和潛力。如何利用人工智慧演算法提供的強大分析、判斷、預測等能力,賦能網元、網路和業務系統,並將其與電信網路的規劃、建設、維護、執行和最佳化等工作內容結合起來,成為電信業關注的重要課題。

  在HUAWEI CONNECT 2020期間,華為基於對電信領域的深刻理解和多年經驗沉澱,帶來了《雲地協同加速網路AI規模商用使能實現自動駕駛網路》的分享,旨在結合電信領域應用場景,使能網路達到自動、自愈、自優和自治的自動駕駛網路,提升整個網路的效率,降低OPEX。

   電信行業面臨挑戰呼喚ADN

  我們正進入一個跨界競爭的新時代,每個行業都面臨著結構性挑戰,電信行業尤其如此。新趨勢下,電信網路正面臨以下三大挑戰:

   業務複雜:網路所聯接的業務越來越多,無人機、汽車、AR/VR…從B2C到B2C、B2X,網路所支撐的業務越來越複雜;

   運維複雜:從4G到5G,2-3-4-5四代同堂,十餘種網路協議,數千網路特性,上萬配置引數,網路運維複雜度激增;

   聯接複雜:萬物智慧,使得聯接密度增加了100倍,聯接移動性達到了150km/h,聯接的資料量增加1000倍,聯接複雜度前所未有;

  要解決電信網路面臨的挑戰,僅僅靠產品創新遠遠不夠,需要整個系統架構創新和商業模式創新,才能提升運營商的競爭力,解決結構性問題。從2018年開始,為實現網路自動化和智慧化,電信行業組織、運營商和裝置商紛紛啟動技術探索。

  華為在2018年即提出電信行業邁向ADN五級演進標準,為實現自動駕駛網路提供了參考。另外,以中國聯通、中國移動、BT、法電、Telstra為代表的運營商,以及以華為、愛立信為代表的裝置供應商均積極開展相關實踐,網路智慧化、自動化成為行業熱點。

  近10年來,華為從ALL IP,ALL Cloud進入ALL Intelligence時代,在架構創新的道路上從未停止。2019年4月,華為正式釋出iMaster NAIE網路AI雲服務,為華為網路智慧化戰略實施的的重要里程碑。

  不僅如此,華為自動駕駛網路(ADN)秉承“把複雜留給自己,把簡單帶給客戶”的思想,以網路極簡和智慧運維為核心理念規劃、設計和開發產品,透過雲端+AI、網路+AI和網元+AI的三層AI開放架構“給網路以智慧,給運維以平臺”,加速電信運營商數字化和智慧化轉型。

   雲地協同加速AI特性規模應用

  近年來,全球業界各方在網路AI方面紛紛進行積極的探索和實踐,經過驗證在運維效率、能耗效率、網路資源利用率以及使用者業務體驗提升等方面確實能夠帶來價值,電信產業走向智慧化已經成為整個行業的共識。但在實踐中,也發現網路AI在走向規模化工程應用的過程中存在很多挑戰,如模型重訓練佔用資源多、模型版本升級管理難度大、本地樣本少、模型精度不夠等問題。

   模型重訓練佔用資源多:從實踐統計來看,一些場景都會發生因泛化、或資料偏移而導致的模型精度下降問題,如無線流量預測、DC PUE最佳化等,AI模型都需要進行重訓練。AI模型訓練一般會佔用較多系統資源,如在網元或網管實施重訓練任務,訓練效率低,同時也可能會影響裝置效能。

   模型版本升級管理難度大:很多場景的AI模型都是一站一模型,如無線基站智慧節能等,各站點的模型都根據本地化資料進行定製化訓練。各局點模型版本不同,升級頻度也不同,成千上萬的站點模型,管理難度很大。需要有一個統一的平臺,高效實現模型狀態的監控和版本升級策略等管理任務。

   本地樣本少、模型精度不夠:部分場景單局點樣本量少,不足以支撐模型訓練,如核心網KPI異常檢測,單局點發生異常頻率很少,訓練需要的樣本量不夠。因此,需要能夠匯聚所有局點的全量樣本資訊,可能還需輔以聯邦學習等技術,才能訓練得到滿足業務精度要求的AI模型。

   雲地協同實現架構

  針對以上問題,華為提出雲地協同創新方案,透過雲地協同,可以加速AI特性的規模部署。

  雲地協同,是指雲端和地端一起協作完成資料樣本上雲,模型狀態管理,模型重訓練,模型/知識下發、擇優更新等一系列的閉環任務,同時把雲端彙集的全域性網路知識經驗、全量資料訓練得到的高精度模型,持續注入地端,讓電信網路能夠進行智慧的迭代升級,變得越來越聰明。

  雲地協同有三個主要的特徵:一是雲端和地端要有通道;二是地端到雲端,資訊可以從運營商上傳到雲端,包括資料樣本、模型狀態、以及重訓練請求等資訊,三是雲端到地端可以下發新的模型,同時網路知識庫裡的知識也可以注入到地端。

  雲地協同機制參見下圖:

   雲地協同三個階段

  據介紹,雲地協同在實際應用部署時有三個階段,針對不同場景可以選擇適合的階段,最終大幅提高網路的資源效率。

   階段1:雲端進行初始模型的訓練,執行態由地端根據新增的樣本進行線上學習,持續保持模型的精度。這種模式主要是適用於模型相對簡單,演算法結構比較穩定的場景,這種場景一般不需要對模型結構和演算法本身進行更改,只需要根據本地資料進行線上學習,最佳化調整模型引數。比如像核心網變更線上機器值守等。

   階段2:雲端進行模型的分發,然後在地端根據新增樣本進行線上學習。具體講,就是雲端會持續對模型進行最佳化,包括模型演算法結構上的,最佳化後的模型會進行推送到地端,地端根據評估結果進行模型擇優更新。同時,地端也會根據本地資料樣本的學習進行模型引數的最佳化。這種一般適合於模型相對複雜,華為會持續進行模型演算法結構最佳化的場景,比如無線KPI 異常檢測等。

   階段3:雲地實時協同,模型可以自動化演進,具體講就是本地樣本會實時上傳到雲端,雲端進行訓練和最佳化後的模型會自動推送到地端,地端進行模型評估擇優進行升級。這種主要是適用於模型複雜、需要用到華為雲端高質量標註資料,知識圖譜以及模擬等知識能力進行模型最佳化的場景,比如IP RAN/PTN智慧告警,DC PUE最佳化等。

   雲地協同關鍵價值

  聯邦學習,即透過匯聚各個地端模型的引數,在雲端採用匯聚演算法,形成效果更好的共享模型,再下發給各個地端進行使用,其最大的特點,就是在地端資料不用出局的情況下,提升模型的精度。藉助聯邦學習可以更好的實現雲地協同,從而提升模型泛化能力和訓練效率。

  藉助知識圖譜,透過沉澱專家經驗和產品知識轉化形成故障傳播關係等,形成“網路知識庫”,可用於故障運維輔助、知識問答等。

  在雲端模擬方面,透過在雲端構建虛擬模擬環境,高效安全地進行模型或業務驗證,在避免現網效能或KPI受到影響的同時,支撐網路問題的快速閉環。

  模型因為需要進行更新,更新的方式如果採用傳統網管整合的這種模式,需要經過多層多次的人工動作,首先模型版本釋出後,需要產品研發把模型透過程式碼工作整合到網管軟體版本里,然後釋出到華為Support網站。

  如果採用自動升級模式,透過雲地協同,讓AI模型市場跟地端網路AI對接,模型釋出後進行推送,讓地端局點啟動自動化的模型升級,當然升級前也會完成模型的評估,整個過程在1個小時即可完成。

  總結來看,雲地協同可以實現一點生效,全網複製,AI的特性在一個局點成功實施後,快速的形成知識和經驗,在其他局點進行復制,實現在全網規模應用。

   華為iMaster NAIE讓網路AI開發簡單高效

  NAIE是自動駕駛網路解決方案的網路AI設計和開發平臺,由資料服務,訓練服務,AIOps使能服務,推理框架和生態服務五大部分組成。

  網路AI模型開發既要懂AI、又要懂網路,技術門檻高。模型開發過程中,既需要懂AI知識,又需要熟悉網路業務。電信領域專家AI積累少,可借鑑經驗少。而且由於AI演算法多,選擇範圍廣,所以導致試錯成本高、開發效率低;演算法科學家不懂電信業務,需要花大量時間瞭解學習。模型訓練依賴大量並且昂貴的計算資源,調參最佳化週期長,訓練耗時高、週期長。

  NAIE訓練平臺,提供一站式高效模型訓練,整合業界通用的主流AI演算法框架,包括Mindspore、Tensorflow、SParkML、Caffe2、MXNet等,內嵌華為在網路領域30多年的知識和經驗沉澱,支援電信領域的特徵處理,輔助快速識別等關鍵特徵,內建電信領域AI典型演算法,如異常檢測、根因分析、最佳化控制、業務預測等,支援模型快速驗證。目前主要包括三類服務:模型訓練服務、模型生成服務和通訊模型服務(線上推理),可以滿足不同層次的人員對於模型開發的需求。

  不僅如此,華為還提供了豐富的NAIE培訓服務,線上線下結合,助力運營商人才轉型。

   總結

  未來是智慧化的時代,運營商網路智慧化不可能一蹴而就,而是一個長期實踐。華為自動駕駛網路解決方案是華為All Intelligence戰略在電信領域的落地,而iMaster NAIE做為智慧化部件,將使能自動駕駛網路。核心的AI能力依託華為在All Intelligence中長期堅決的戰略投入而積累成長,和電信領域場景想結合,幫助運營商儘快實現數字化,智慧化轉型。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/28285180/viewspace-2724636/,如需轉載,請註明出處,否則將追究法律責任。

相關文章