解析UCloud人工智慧與英特爾背後的技術故事「下」

UCloud技术發表於2018-11-08

在上一篇中,我們介紹了UAI-Service借力英特爾技術如何讓使用AI服務像使用雲主機一樣便捷等技術問題。在這一篇中,我們將繼續就UAI-Service如何以低TCO獲取高效AI服務等問題展開討論。

UAI-Service另一個重要優勢是平臺內資料的安全性:

1.首先,由於UAI-Service在每個虛擬機器上只部署一個AI節點,因此做到了各個AI任務之間的隔離;

2.其次,由於平臺本身並不涉及AI訓練資料以及訓練方法,在執行時僅需模型檔案及介面程式碼,杜絕了資料外洩的可能;

3.最後,UCloud基於SDN技術實現了網路鏈路層的隔離,使每個客戶的UAI- Service專案子網之間相互隔離,提升了網路安全性。

在UAI-Service中,使用者之間的AI模型和介面程式碼是安全隔離的,全自動化的部署過程使運維人員無權訪問敏感資料,進一步提升了資料的安全性。

UAI-Service的通用性優勢,解決了企業面對不同AI框架時的“選擇障礙症”。UAI-Service對主流的AI框架,包括TensorFlow*、Keras*、Caffe* 和MXNet* 等都提供良好的支援,企業可以根據自己的業務需求來選擇不同的AI框架進行接入。

UAI-Service 框架示意圖

在傳統的AI框架以外,UAI-Service還與英特爾一起,引入了效能更佳的AI框架:面向英特爾®架構最佳化的Caffe框架。這一版本的Caffe框架與傳統AI框架相比,能更好地支援英特爾®至強®處理器產品家族和英特爾®至強融核™處理器產品家族,並整合了最新版本的英特爾®數學核心函式庫2017,能更高效地利用英特爾®AVX的處理能力。

源自UCloud的一系列測試結果表明,藉助面向英特爾®架構最佳化的Caffe框架,測試系統同時執行的執行緒數量可以得到顯著增加。基於該框架,測試系統的執行時間也能從最初未修改前的37秒縮短至最佳化後的3.6秒,整體執行效能提高了10倍以上。事實證明,透過採用這一框架,UAI-Service的AI線上服務效率得到了極大的躍升。

以低TCO獲取高效AI服務

現階段,致力於AI開發和創新的企業,多為初創型企業,或者是正在謀求業務轉型和升級的傳統企業,因此對TCO的控制尤為敏感。如何獲取高價效比的線上AI能力是企業使用者們普遍關心的熱點話題。

由於在影像識別、自然語言處理等AI正在發揮重要作用的領域中,往往需要用到大量的浮點運算,因此在人們的傳統觀念裡,只針對浮點計算提供加速的GPU平臺,似乎更適於AI系統的構建。但在AI模型的部署實踐中,GPU動輒高達數萬元人民幣的售價極其昂貴,而且由於其擴充套件性不足,一旦部署,通常就只能固定執行單一的計算工作,難以隨時根據工作任務的調整和變化實現及時的適配。

這樣一來,UCloud就盯上了資料中心內大量部署的、每臺伺服器都會配備的通用處理器。“透過技術分析,我們發現虛擬雲主機中的處理器,處於工作狀態的主要都是簡單指令集,而英特爾®至強®處理器整合的英特爾®AVX則並沒有被充分利用。”UCloud葉理燈表示:“這意味著以浮點計算效能著稱的英特爾®AVX的能力,或許可以為我們提供更適用的解決方案。”

英特爾®AVX是一套完整的單指令多資料(Single Instruction Multiple Data,SIMD)指令集規範,其最大的優勢在於支援256位向量計算,大大提升了處理器的浮點計算效能。其具備的增強資料重排能力,也能更有效地儲存、讀取資料。在充分認識到了英特爾®AVX及其處理單元的特性和優勢之後,UCloud的工程師們開始了一項大膽的創新:利用各個虛擬機器中此前未能“物盡其用”的英特爾®AVX能力,來滿足AI線上服務的計算需求。

為了實現這一創舉,UCloud與英特爾的工程師們攜手最佳化了英特爾®AVX在AI線上服務中的應用表現,經過反覆的最佳化與驗證,AI線上服務的重要技術指標——時延被成功降低到了數百毫秒,完全能夠滿足UCloud使用者的實際應用需求。

在時延這一效能指標達標的同時,英特爾®至強®E5處理器產品家族出色的可擴充套件性也開始釋放其強大的應用潛力。在資料中心內、伺服器中配備的無數英特爾處理器都可以被擴充套件到系統中,來進一步強化AI線上服務所需的浮點計算能力,這是一種遠比GPU方案經濟高效得多的解決方案,畢竟,這些處理器節點已經是UCloud的既有投資,無需再為此多支出一分錢。

“這就是英特爾處理器強大的可擴充套件性帶來的力量。在雲端計算平臺上,處理器資源能夠迅速地進行海量擴容,按我們目前的解決方案,即在每一個虛擬機器上都部署一個AI線上服務計算節點,這意味著我們的AI線上服務未來可以根據使用者需求得到迅速且海量的擴容能力,同時還不需要額外支付太多成本。”UCloud葉理燈滿意地說。

為了對這一創新成果進行驗證,UAI-Service已在200多個基於英特爾®至強®E5處理器產品家族的虛擬機器節點上部署了AI線上服務計算節點,驗證測試的結果表明:基於英特爾至強處理器的AI線上服務計算節點完全能滿足使用者對效能的要求,在幫助使用者有效降低TCO的同時,也順應了資料中心環保節能的發展方向。

最新進展:讓機器更快識別”喜怒哀樂”

在前期成功開發和測試的基礎上,UAI-Service最近又在人臉識別技術的應用上實現最新進展。人臉識別一直是人工智慧的一個重要研究方向,而基於英特爾至強伺服器平臺,利用英特爾®AVX來支援的UAI-Service,已在人臉表情識別的一系列測試中達成了優異的表現,驗證了其能幫助零基礎使用者獲得強大AI能力的潛能。

在測試中,UCloud選用了Tensorflow提供的TF-Slim實驗庫以及人臉表情識別公開資料庫fer2013,其中共包含35887張人臉圖片,各測試樣本在年齡、面部等方面有較大差異性,這使該項技術測試具備了巨大的挑戰性。

而測試結果表明:在有併發的前提下,UAI-Service AI線上服務的效能普遍高於8核8G雲主機的效能,剛剛得到的測評資料表明,目前併發數為8-16個節點時,AI線上服務在效能上基本與基於GPU的方案相仿,這不僅說明在UAI-Service AI線上服務上部署人臉表情識別應用可以帶來出色的成效,還證明基於英特爾®AVX支援的UAI-Service在人工智慧應用中完全具備了與傳統方案相媲美的能力。

結論

以此前在UAI-Service上的成功協作為基礎,UCloud未來還計劃進一步深化與英特爾的創新協作,包括將最新的、面向英特爾處理器最佳化的AI框架引入UAI-Service線上服務平臺,並將充分發掘新一代英特爾®至強®可擴充套件處理器的能力,特別是其整合的全新英特爾®AVX-512帶來的更為強悍的浮點運算能力,來進一步最佳化AI線上服務,讓專注於AI創新和應用的企業使用者,能繼續在合理的成本條件下,獲取更強的AI計算能力支援。

經驗

AI線上服務的普及,不僅需要在技術上予以突破,其部署的便捷性、與現有雲端計算能力的結合程度以及在分散式叢集上部署的可行性,也在深刻影響著企業使用者的AI研發和應用程序。正是因為準確捕捉到了使用者的痛點和具體需求,UCloud的UAI-Service才贏得了使用者的青睞。

受資料中心內普遍存在的處理器計算資源閒置現象的啟發,創造性地將其空閒的浮點計算能力投入到AI線上服務中,這不僅是技術上的創新,也是AI處理工作模式上的全新探索和嘗試,它既能有效幫助企業使用者降低TCO,也順應了資料中心環保節能的發展趨勢。

UCloud技術
UCloud技術

分享UCloud的技術創新、架構設計、實踐總結,內容同步於微信公眾號“UCloud技術公告牌”

https://www.ucloud.cn/
專欄二維碼

相關文章