阿里雲CTO章文嵩:支援開源,JStorm將捐贈給Apache

郭雪梅發表於2015-07-29

在技術研發的路上,阿里雲已經取得了豐碩成果,形成了包含彈性計算、資料庫、儲存和CDN、雲盾、大規模計算與分析、中介軟體與應用服務、域名和網站在內,7大方向,30多種產品和服務。其中,自主研發的飛天5K更是幫助阿里雲在世界上獲得了極高的讚譽。但面對影像識別、語音通訊、機器學習、深度學習及其他人工智慧等新技術突飛猛進的發展,雲端計算平臺的產品和服務還需要不斷推陳出新,加速迭代。

阿里雲CTO 章文嵩

這也是阿里雲在首屆雲棲大會北京峰會上,集中釋出了11款新產品,並預告了即將推出的10大產品與服務的原因。而在產品之外,阿里雲的技術發展路徑更引人關注。章文嵩在成為阿里雲CTO後,主要負責技術路線制定,技術體系的最佳化和新技術研發。他在題為《NEXT·技術》的演講中,提到阿里雲已經看到雲技術的下一次爆發點——GPU高效能運算。

GPU高效能運算背後的新需求

為了更好闡述這一觀點,章文嵩從多方面進行了剖析:

內部:去年阿里集團內部共上線了33個GPU應用,對應的圖片訓練已經到1億+張。在阿里雲上線2P FLOPS的GPU計算叢集(未來規模還將翻番)之後,一週之內就被所有業務部門一搶而光。已經涵蓋人臉識別、標籤識別、質量控制、商品分類、風格預測、拍照購、OCR、語音識別、圖象搜尋、反黃等多個方面,為業務創造了巨大價值。

外部,基於深度學習、圖形圖象識別、語音技術的大規模爆發,業內迅速湧現出如Face++、格靈深瞳、Linkface、知圖科技等10+創業公司。

在他看來,神經網路在80年代後期出現過一個低點。2000年前後,從淺層學習到深度學習的演變,將神經網路提高了幾個數量級,對計算需求更高。尤其是近幾年,2012年穀歌大腦用16000個CPU實現深度學習,為整個業界帶來很好的啟示。在網際網路這富饒的土壤上,語音和影像的技術與應用的成熟,深度學習技術與業務的緊密結合,使得技術的投入和發展進入了良性迴圈。“我們可以看到,資料和計算成為爆發的基石。比如深度學習模型對資料依賴性非常高。過去解決問題是從模型演算法著手,現在更多是獲得高質量資料。資料已然決定了整個模型的訓練效果,高質量的資料當然需要多多益善。這就帶來了一個巨大挑戰:獲取、儲存海量資料,並要大幅降低儲存成本。要知道,即使是銀行,14天后資料就會清除。另一方面,商業領域計算能力從未過剩。一張圖片的特徵提取要170G次浮點計算;120萬張圖片進行一次網路訓練,需要318P次浮點運算;一個CPU要算上22天的計算量拿GPU來做,大概是18個小時。”

具體來看:

  • 資料能力。包括資料獲取、資料儲存、資料傳輸、資料加工和資料使用,正如原油、汽油和石油只是提煉品一樣,挖掘和提煉能力越高,產出就越高。DT發展的必然階段,就是從資料分析到高效能資料分析。要實現這一點,需要更高效能、更強大的計算能力。
  • 計算能力。比如谷歌大腦用了1000臺伺服器,每臺6核,耗電是600KW,500萬美金的成本投入。而史丹佛大學人工智慧實驗室重新做了一遍,只需要3臺GPU伺服器,耗電只有4KW,3.3萬美元的投入。技術演進將帶來巨大變革。在引數模型中,包含GPU,眾核處理器充當記憶體,關鍵計算用Hybrid CPU—FPGA,在加上極致的軟體效能最佳化,效能提升迅猛。“我們在一種模型上的最佳化,最多可以提升60%,而美國一家技術創業公司同樣的最佳化,只能提升20%。”透過軟硬一體的最佳化,使得物理機+加速器的能力能直接對外部輸出,將是雲上IaaS的第二種形態。這樣的方式下,雲上超算能力不會成為瓶頸。
  • 構建技術生態。企業不僅需要計算,還有更多配套服務。比如資料、資訊的高速獲取和分發需要極速CDN,資料和資訊儲存需要物件儲存,網際網路應用落地需要雲伺服器、負載均衡、雲資料庫,大資料分析和高效能資料分析需要大資料處理如ODPS和高效能運算,GPU叢集對外輸出(今年9月份天池大資料計算,會讓參賽選手使用GPU叢集)。

章文嵩總結道:“我們相信資料能力+計算能力+技術生態,可以實現用技術擴充商業邊界的目標。阿里巴巴聯合更多合作伙伴,開放出更多如同人臉識別、深度學習等人工智慧新技術,和社會分享,幫助企業實現彎道超車。”

支援開源,JStorm將捐贈給Apache

對於阿里雲技術路徑的規劃和設計,章文嵩表示:“效率和資源利用率的提升,會進一步降低成本,所以阿里雲在技術上,仍然會將精益求精做到極致。我相信有一天我們能把雲端計算平臺做到世界領先的水平。對於未來,DT時代的技術爆發點已經比較明確,關鍵是利用海量資料和一些比較成熟以及新出現的技術實現業務目標。為此,我們在矽谷建立了研發中心,成立了面向大資料研究的iDST(Institute of Data Science&Technologies,研究領域包括機器學習、大資料探勘、自然語言處理、移動搜尋、多媒體識別等),阿里雲本身還在各個層級進行技術和人才的儲備。”

阿里雲是業內少有的在開源最佳化和自主研發並行的公司。對於未來技術選型,章文嵩表示:“在開放雲平臺上一定要搭建自己的體系,一方面是在核心元件上會自研,只有這樣,才能走的比行業更領先;另一方面,如果某些技術,我們自己做的效果比開源好5%和10%,意味著成本就會降低很多,也會選擇自研。而在對外服務上,阿里雲則會納入很多開源工具和客戶習慣的開源體系,比如Hadoop、Docker,來為企業提供所需的相關服務。”

除此以外,章文嵩還談到:“作為目前國內開源貢獻最多的一家企業,阿里巴巴也在開源技術方面受益很多,我們會積極回饋社群,促進良性迴圈。現在,阿里巴巴已經是Linux基金會成員,Xen基金會成員,計劃加入Apache軟體基金會。阿里在電商方面的開源技術,已經直接被國內相關企業所採用(沒有任何修改)。未來,我們會把很有競爭力的產品捐獻給Apache。比如阿里的JStorm(阿里的流處理框架),就會在不遠的將來捐出。”

阿里雲總裁胡曉明表示大力支援:“我們擁抱開源,同時會堅持開放,讓開源的產品和阿里巴巴本身的架構體系更加融合。同時推動阿里巴巴的技術進一步的開放和開源。”

這一路線也得到了阿里雲所有部門的認可。同時,對於開源,阿里雲也倡議國內企業不要過於“拿來主義”,也要有網際網路精神的貢獻來回饋社群。

相關文章