解析UCloud人工智慧與英特爾背後的技術故事「上」

UCloud技術發表於2018-11-08

“企業要構建自己的AI線上服務系統並非易事,無論是IT基礎設施的建設還是AI 框架的部署,都需要耗費大量人力、物力。如果在IT系統、AI框架上選擇失誤,則會前功盡棄,這給AI專案的發展和普及製造了很高的門檻。我們的目標是幫助使用者像使用雲主機、雲端儲存這些成熟的雲產品一樣使用AI線上服務。通過充分利用英特爾®至強®處理器E5產品家族的高可擴充套件性及英特爾®AVX,我們的UAI-Service正逐漸走近這一目標。”

人工智慧Artificial Intelligence,AI)如火如荼的今天,很多初創企業和傳統企業都選擇以AI為契機開拓市場,但同時也面臨著缺乏高效部署AI能力的難題。為此,UCloud基於英特爾®至強®伺服器平臺,充分發掘和利用英特爾®高階向量擴充套件(英特爾®AVX)指令集相關處理單元的潛能,推出了UCloud AI 線上服務(UCloud AI online Service,UAI-Service*),其具備的大規模分散式計算平臺可以滿足企業在影象識別、自然語言處理等多個AI領域的線上服務應用需求。

面臨挑戰

企業的AI之路並非坦途大道:無論是初創企業踏上AI創新之旅,還是傳統企業希冀藉助AI之力調轉航向,實現轉型或升級,AI系統的設計、部署和運維都需要巨大、多維度的投入且困難重重,在決策選型過程中稍有不慎,都會帶來巨大的沉沒成本,令許多企業望而生畏。

AI的高成本正侵蝕企業的總擁有成本(Total Cost of Ownership, TCO ):AI能力提升的背後,可能會給企業帶來巨大的成本開支,如何在效能和成本之間達到平衡?這一問題讓許多企業決策者感到苦惱。

解決方案

UCloud UAI-Service:面向初創企業、傳統企業AI轉型而生的UCloud UAI-Service,旨在提供易部署、易運維、更安全以及多AI框架支援的AI線上服務節點,可助力企業完成AI模型部署這一關鍵環節,並在影象識別、機器學習等多個AI領域滿足企業使用者的需求。

英特爾®至強®處理器E5產品家族及英特爾®AVX:通過與英特爾的緊密技術合作,UAI-Service一方面巧妙地利用雲主機中英特爾®至強®處理器E5產品家族的空閒處理能力,將其英特爾®AVX能力用於支援和加速AI線上服務;另一方面,利用該處理器產品家族強大的可擴充套件性進行彈性部署,用低成本獲得高效能,降低使用者的TCO。

成果

真正推動AI技術的普及,助其持續發展:UCloud推出的UAI-Service將身處技術“深閨”中的AI技術和應用進一步平民化、實體化。通過PaaS的方式,讓更多有志於在AI領域開拓進取的企業能夠獲取出色的AI部署能力,進而讓整個AI產業實現“小步快跑”的前進節奏。

更有效利用空閒計算資源、節約使用者成本支出:UAI-Service創新地利用英特爾®至強®處理器E5產品家族的空閒處理能力,是對空閒計算資源再利用的有效嘗試,其成功實踐令成千上萬的資料中心處理器的空閒能力得以充分利用。這既降低了企業使用者的TCO,也達到了環保節能的效果。

橫空出世的AlphaGo,讓AI成為近兩年來人們持續關注的熱點。而AI也正在走出象牙塔,走近普通企業和大眾,並開始在經濟和民生層面扮演起越來越重要的角色。從機器學習模式識別自動駕駛、機器視覺,不但眾多初創企業將AI研發作為揚帆起航的契機,許多傳統企業也將其作為自身轉型升級所必備的利器。

但AI系統的建設並非易事,企業AI系統的建設可分為“資料收集”、“模型訓練”及“模型部署”三個步驟,每個步驟都會帶來複雜的IT系統建設及運維工作。隨著各類大資料雲端計算技術方案的日趨成熟,“資料收集”和“模型訓練”的工作正逐漸轉移到雲上,形成了成熟的雲化方案,而AI模型部署的雲化還存在許多問題:一方面,多種多樣的AI框架需要企業制訂和執行不同的部署策略,難免因此產生高昂的運營成本;另一方面,主要用於模型訓練的GPU平臺在模型部署中不僅部署成本較高,而且在擴充套件性上的表現也不夠理想。

UCloud推動的UAI-Service,就是針對上述AI模型部署難題而生的創新方案。UCloud的工程師們創造性地利用了虛擬雲主機上英特爾®至強®處理器E5產品家族的空閒計算資源,藉助英特爾®AVX的能力,來提供專注於AI模型部署的AI線上服務。英特爾®至強®處理器強大的可擴充套件性也幫助UAI-Service獲得了快速便捷部署的能力,並顯著降低了企業執行AI線上服務的成本支出。

讓使用AI服務像使用雲主機一樣便捷

“簡單來講,AI的三部曲可以分為大資料收集,AI模型訓練和AI線上服務。”UCloud創新產品線總監葉理燈這樣描述企業AI系統建設,“此前,針對前兩步,UCloud都已經為使用者提供了成熟的雲主機、雲端儲存、雲網路等解決方案。”

但三部曲的最後樂章,卻還面臨諸多問題。一方面,企業使用者在基於AI進行業務創新時,常常面臨眾多的業務流程,如何將不同的業務流程與AI線上服務一一對映,這對AI線上服務的部署、可管理性及可擴充套件性提出了巨大的挑戰;另一方面,面對眾多的AI框架,企業運維人員總有無從著手的煩惱,因為他們需要為各個框架開發和配置不同的介面,工作量巨大。為解決AI系統建設這“最後一公里”的問題,UCloud提供了UAI-Service,它能基於大規模分散式計算平臺為使用者提供AI線上服務。

在實際任務部署中,UAI-Service為使用者提供了“兩步走”的部署模式。首先,向使用者提供SDK工具包,內含介面程式碼框架、程式碼和資料打包模板以及第三方依賴庫描述模板。使用者只需根據SDK工具包內的程式碼框架編寫介面程式碼,準備好相關程式碼和AI模型以及第三方庫列表,就可以通過打包工具一鍵完成任務的線上部署。

任務打包完畢後,使用者可以通過UAI-Service分散式的AI線上服務PaaS平臺進行後續管理和維護。該平臺可以同時管理上千個計算節點,每個計算節點都是同構節點,具有相等的計算能力,並擁有自動請求負載均衡、自動資源管理的功能。使用者只需要將業務部署在平臺上,就無須操心其後續的運維。

“UAI-Service給使用者帶來的最大優勢,就是省去了部署AI線上服務時的大量繁瑣工作,讓使用者可以將寶貴的資源聚焦在自身的業務上。”在UCloud葉理燈看來,如果每一個企業使用者在部署自己的AI服務時,都需要通盤考慮容災、安全性、資源排程或者負載均衡,那麼企業在人力資源和成本上的支出將是沉重不堪的。

UAI-Service將這些工作都內化為SDK包和PaaS平臺服務,使用者只需要像使用雲主機或者雲端儲存服務那樣,輕鬆將所需的功能或服務配置在一起就可以使用,而且UAI-Service還可以自動將分散式部署的四大要素——負載均衡、自動擴容、分散式容災以及海量計算資源進行有效配置。

在下一篇中,我們將繼續介紹UAI-Service平臺的另一優勢,以及UAI-Service如何借力英特爾技術以發揮其更強的AI能力等方面的技術解讀。

相關文章