雲之變6:讓AI無處不在的雲端訓練師

naojiti發表於2019-10-08

隨著《雲之變》系列走向尾聲,想必大家可以清晰地感受到,當前雲服務的發展方向,無論是以IaaS、PaaS或SaaS等何種形式交付,其所追尋的產業價值一定離不開一個特質,那就是——“AI as a service”,AI即服務。

在這場大浪潮中,越來越多企業在尋求可以將AI整合到自有業務與產品中的渠道,無數開發者渴望搶先在AI舞臺上釋放創造力,然而面對深度學習為代表的巨型資料集,如果自建資料中心或個人電腦帶不動AI這匹“算力怪獸”,該怎麼辦?

作為基礎設施一般存在的雲服務商,此時就被賦予了一個新的角色——AI訓練師。

花式AIaaS,離不開“訓練”二字

雲端計算的普及,讓各種AI能力以“即服務”的形式出現在了各行各業之中。去年,RightScale的雲研究報告指出,企業格外關注於AI技術體系中的機器學習。當被問詢未來計劃使用哪種型別的公有云服務時,絕大多數的受訪者選擇了機器學習,12%的受訪者表示他們正在使用這一服務,46%的受訪者則表示他們正在測試或計劃部署機器學習服務。

目前看來,AI主要是以三種形式被“即服務”到產業當中:一種是Chatbot,比如蘋果Siri、微軟Cortana或亞馬遜Alexa這樣的智慧語音助理,被業務整合後可以直接打通AI體驗,解放人力;第二種是API。雲服務商開發出的AI模型,如NLP、圖片分類、影片識別等等,以應用程式程式設計介面(API)的形式整合到自身的平臺上去,避免從零開發。目前廣泛應用的人臉識別、語音翻譯等都是以各種形式被普及的。第三種則是機器學習框架。開發人員利用雲訪問機器學習框架構建出模型,再基於自身現有的資料對模型進行訓練,這種方式比起自建型演算法模型更加便捷,節省時間。

顯然,這些讓AI全面開花的主流方式,依然依賴於一個環節,那就是訓練。

我們知道,雖然目前絕大多數雲服務商都提供多種AI模型來幫助各行各業實現智慧化。但云服務商無法深入到產業肌理的每一個細微紋路,想要讓AI落地時精準地匹配現實需求,高度定製化的資料訓練就十分必要了。

即使雲服務商有類似的平臺模型可供企業客戶呼叫,一個良好的模型依然需要具備可擴充套件、可訓練性,也就是能夠根據實際資料隨時自我更新,不斷提升效能,才能真正成為提質增效的神兵利器。

從這個層面看,面向企業和個人開發者的AI訓練服務,幾乎成了公有云無法繞開的關鍵能力。

上探AI訓練,對公有云意味著什麼?

今天,在公有云上進行深度學習訓練可謂是人工智慧的重要趨勢,然而有能力向企業和個人開發者輸出雲端訓練服務的雲服務商可說是鳳毛麟角。

例如亞馬遜推出了AWS深度學習容器,也方便客戶定製AI訓練流程;谷歌和Facebook也推出了適合自身深度學習框架TensorFlow的訓練平臺;在中國,華為、百度、阿里、浪潮、騰訊等也讓定製化AI訓練服務走上了雲端,整合到他們的企業服務解決方案中去。

我們知道,深度學習難以離開大資料和規模化訓練的支撐,二者就像緊密結合的輪軸推動著演算法向高效能、高精度的方向發展,進而影響整個社會的AI程式。但目前市面上只有少數幾家頭部公有云廠商有類似的服務。為什麼雲端AI訓練如何“陽春白雪”?

其中很大一部分原因在於,定製化神經網路的訓練任務,往往需要強大的計算能力,也就是GPU叢集來保障。然而今天, AI算力依然是一種昂貴的計算資源,而云端訓練往往會在不訓練時將算力資源釋放出去,實現彈性調配,服務商按照實際計算消耗進行付費,個人開發者與企業則可以省去購買計算單元或是自建資料中心的高昂開支,從而大大降低了AI落地的成本。

不過,目前使用者可以選擇的雲端訓練平臺並不多。主要原因是用於神經訓練的GPU晶片幾乎由英偉達一家獨大,雲服務商建立訓練平臺的成本很高。後來谷歌、華為分別推出了自己的大規模計算單元,起到了一定了市場制衡作用。但整體而言,訓練環節的雲端晶片依然難以滿足廣泛的部署需求。

還有一個顧慮是雲巨頭在AI領域的投入與創新,正好具備了輸出基礎算力與應用工具的雙重能力。大多企業想要AI,依然需要花費大量時間與精力、人力去熟悉相應的深度學習框架、標註資料、調教引數、設計容錯等等,在一份Vanson Bourne公司的“企業人工智慧狀況”調查報告中,有34%的企業IT決策者表示他們沒有合適的人才來支援技術的成功部署,30%缺乏實施的預算。

舉個例子,大部分中小企業採用公有云來進行超大規模的AI訓練,一個基本出發點就是試錯和驗證AI進入產業的新想法,因此時間成本就非常重要,這需要效率更高、擴充套件性更好的深度學習框架和專項加速來支撐。因此,想要幫助企業減少定製化訓練的學習門檻與風險成本,只有少數有意願、有實力的頭部雲技術巨頭才能切入。

另外值得注意的是,無論是需要財報好看的企業,還是渴望擁抱AI的開發者,雲平臺面臨的訓練任務是五花八門的,接收到的資料資源也很可能放飛自我。不同的程式、業務模式可能對應著不同的訪問模式和儲存結構,因此,如何儲存、處理、分析、最終輸出基於任意型別資料的訓練模型,這就要求雲平臺擁有構建和管理資料湖,來處理各種結構化或非結構化的資料,並統統投餵給神經網路。顯然,想要積累如此龐大且豐滿的全量資料,頭部選手的表現更優且更完備。

總體來看,AI訓練作為智慧這座大廈所必備的原材料鍛造過程,迫切需要一個靈活機動的全能選手“隨叫隨到”,就地完成特殊模組的精雕細琢然後就功成身退,而不是在材料原產地處理完再運往施工現場。

具備這種彈性作戰能力的“工程隊”,顯然具備爭奪市場的關鍵能力。這也是為什麼今天幾乎所有頭部雲廠商都開始紛紛輸出自身的雲端訓練能力,甚至不惜“虧本賺吆喝”。

那麼向AI的技術上游切入訓練服務產業鏈,對於公有云廠商來說,究竟意味著什麼?是以演算法API和應用程式的方式“被連線”?還是提供工具和計算平臺“被整合”?亦或者向更底層的晶片等“硬實力”進發?

如果某一朵雲懷抱著的野望,是真正成為智慧時代的容器與基礎設施,構建全方位、立體化的AI技術體系,那麼集硬體算力、軟體技術、生態開發於一體的AI訓練,雖然是複雜而漫長的冒險,卻是中國AI產業真正進入千行萬業所必要的投入與支撐。

一方面,雲服務商需要開放自身的計算資源,為了不掣肘他人,就必須倒逼半導體產業自我升級。尤其時我國的短板,如承擔訓練任務的雲端訓練晶片,針對深度學習框架專項加速、提高效能的計算單元,高精度基礎模型的釋放等等,這些AI訓練的必要支撐,伴隨雲服務商的產業上探實現系聯動升級,正是當前的趨勢。

另外,雲端分散式訓練、終端模型部署相結合,正在成為AI開發流程的全週期模式。企業利用公有云的算力、解決方案所訓練的專有模型,大多需要在端、邊側部署和應用,在“從硬到軟再到硬”的過程中,往往需要雲平臺協同綜合考慮,這也讓構建從訓練到應用的產業閉環成為可能。而中國企業和開發者,以及各產業端的關鍵資料、創新應用等都得以在國產雲環境中執行,在地域化情緒與環境不穩定的當下,也有著重要的產業安全戰略意義。

由此,我們可以引出一個新的話題:一個好的雲端AI訓練平臺,應用具備哪些能力?

讓AI飛入尋常百姓家的雲端“魔術手”

AI開始走進大眾視野,是以阿爾法狗所代表的深度學習技術為起點。而云服務商所扮演的角色,就是不斷將實驗室中影影綽綽的技術“實體化”、工具化成一個個道具,運用一雙虛實變幻、軟硬結合的“魔術手”,將AI驚豔地呈現在各行各業、普羅大眾眼前。

透過這雙魔術之手,我們則可以反向去理解,“雲端訓練”在AI普惠的過程當中,都需要哪些條件的支援:

1.計算效能的持續升級。算力,是雲端訓練的基礎保障,這裡涉及兩個基本命題,一是絕對規模,也就是硬體化計算能力,在訓練時,資料會被分派給眾多訓練機器,再透過反饋及標誌變數重新組合在一起,從而建立完整的訓練模型,對GPU驅動、底層庫之間的相容性等硬體提出了不少挑戰。第二需要考慮的則是精度,透過網路最佳化和超參組合,雲平臺可以利用少量資料就達到出色的訓練效果和高效能的模型,這對於一些中小微開發者來說有著化不可能為可能的現實意義。

2.友好模式的開發態。簡單來說,就是降低開發者的訓練成本、學習門檻。一種方式是提供簡單易上手的開發工具和互動介面。舉個例子,神經網路訓練的資料集往往達到1PB的資料量,即使用1G頻寬的網路來傳輸也需要耗費將近4個月,黃花菜都要涼了,對此一些雲巨頭藉助新的傳輸工具,如谷歌的Transfer Appliance ,就能在25 小時內將 1PB 的資料裝入資料中心。還有一些自動化、視覺化的任務管理工具,能夠大大解放開發者的重複勞動,比如訓練任務一站式託管,可以自動跟蹤任務的訓練狀態,提供輸出日誌功能,開發者只需實時監控就可以了;

友好的第二種意義,則是雲平臺的相容性。我們知道,目前深度學習框架有許多,開發者需要在不同的框架下完成特定的訓練及推論任務,因此雲平臺的相容幷蓄就非常重要了。像是新的AWS容器就能夠支援谷歌的TensorFlow、Apache的MXNet以及臉書的PyTorch等不同的機器學習架構,華為新發布的Atlas智慧計算平臺,也志在解決中國企業和開發者對算力與相容性的難題。這意味著對每一種架構提供針對性的最佳化和加速,讓特定的模型訓練速度更上一層樓,這也有助於打消企業開發者的上雲顧慮。

3.穿透各個場景的降本增效。一方面,成本控制作為雲端訓練的核心優勢,在整個開發過程中是不可或缺的。這意味著雲平臺需要具備合理的擴充套件性與靈活度,讓企業輕鬆獲得自己所需要的AI資源並靈活合理地支付費用,如果試點專案沒有成功,也可以很容易地關閉;而專案成功後,也可以很容易地擴大資源規模。

另外,基於原生場景資料的訓練完成以後,如何將模型快速擴充套件到企業或產業其他業務部門及軟硬體,這是困擾AI開發生態的落地難題。能夠集中打通資料,讓終端和雲端在統一的智慧基礎設施上協同完成複雜任務處理的開發生態,將會在未來釋放更具應用價值的能量。

4.雲端資料訓練的安全保障。定製化訓練意味著企業和開發者需要將自身的關鍵敏感資料上傳到雲端,多個“租戶”任務同時進行,不同訓練任務資料之間的安全隔離就變得至關重要了。否則影響的不僅僅是模型的精度與效能,更可能在遷移、訓練、儲存中面臨資料洩露風險。

雲平臺一方面需要確保自身資料的合規性,保證演算法不因為地方法規的資料政策限制而失效;同時也需要應對潛在的網路攻擊,採取數加密等手段來實現完善安全的服務呼叫。

總體而言,雲端訓練讓AI得以在軟硬體雙重通道上得到淬鍊,進而以低門檻、可應用的方式真正適配千行萬業的智慧化需求。同時我們應該看到的是,雲服務想要描繪出賦能無數產業、抵達生活方方面面的AI普惠藍圖,還需要跨越一座座高聳的山峰。而在這一條時代的跑道上,需要的不僅是宣傳口徑上的華麗辭藻,更是浸透了汗水與淚水的砥礪前行。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2659129/,如需轉載,請註明出處,否則將追究法律責任。

相關文章