阿里靈傑融合智慧算力,全棧AI服務為探索者鋪路

阿里雲大資料AI技術發表於2022-09-02

image.png

8月30日,阿里雲宣佈正式推出全棧智慧計算解決方案“飛天智算平臺”,並啟動兩座超大規模智算中心,為各類科研和智慧企業機構提供高效、開放、綠色的智慧計算服務。


其中,在AI開發層,阿里靈傑大資料AI一體化平臺提供全流程的開發和運維服務。尤其在模型訓練和推理效能、大資料與AI工程能力方面,憑藉技術領先性和豐富落地實踐,成為區別傳統AI叢集的獨特優勢所在。


本文基於阿里雲智慧AI產品總監黃博遠在阿里雲飛天智算平臺釋出會上《AI Power · 智慧新前沿》的演講梳理成文,將圍繞大模型應用趨勢、AI工程化、軟硬體結合的智慧計算應用案例等話題作詳細介紹。

演講嘉賓| 黃博遠

本文來源阿里雲飛天智算平臺釋出會演講


如今,人工智慧(AI)在各行各業裡得到非常多的應用,並且開始探索生物學、化學、物理學等基礎科學的知識,一如此前AI學習理解影像、聲音和語言。


AI依賴於計算,同時今天AI也反過來去提升傳統意義上的科學計算的效率。無論是新藥物研發、新材料生成、還是自動駕駛,我們相信都將迎來新的革命,這些都是十多年前認為遙不可及的。


兩股新動力將人工智慧應用推到新高度

我們認為有兩股新動力將把人工智慧的應用推向新的高度:具備泛化能力的預訓練模型和資料中心級的智慧算力。

image.png

1.  具備泛化能力的預訓練模型

相信在座各位經常聽到一些相關報導,比如“哪項AI能力超越了人類的認知水平”之類。其實這僅僅揭示了AI和預訓練大模型能力的冰山一角。預訓練大模型,尤其是多模態大模型,有三個核心優勢。


它們具備非常好的 “泛化能力”,因為訓練過程使用到大量模態資料,因此具備通用性。與人類感受和認識世界的過程類似,今天在座的各位耳朵裡聽著我們演講的內容,眼睛在看著螢幕,有時還會用手機或電腦查詢相關資料,這個過程就是多模態認知理解的過程。一旦具備多模態的學習能力,模型認知水平就會變強,能在更多行業得到高效利用。


其次,從參與者視角來看,預訓練大模型能大幅降低製造高質量模型的門檻。回想一下,從零開始製造一個生產級的大模型需要怎樣的投入?海量資料採集、資料工程、神經網路、模型訓練……整套流程走完,出來的模型效果可能並不好,還需要無數次調整。而今天預訓練大模型給我們提供了一個巨人的肩膀。


大家可以站在這個巨人肩膀上,依託大模型,引入特定領域的“小資料”,就能獲得一個具備領域知識且效果非常好的模型。這就好比,如果我們找一個數學家幫忙算賬,他只需要瞭解基本的算賬規則,很快就能算完。但如果找一個沒學過數學的人來算,可能就遙遙無期了。


第三個特點,從整個產業的角度講,基於大模型的AI研發正規化是更加經濟環保的。當我們集中力量訓練出一系列大模型,讓產業內的從業者基於大模型在自己的領域做更精細化的訓練,這樣一些通用的計算就不需要被反反覆覆執行,我們就能節省非常多資源。這就像熱能廠出現以後,大家都不需要自己在家生爐子了,在家可以直接吹到暖氣,如果溫度不合適就自己控制閥門獲得喜歡的溫度。所以我們說,大模型的模式是面向未來的AI研發正規化。


2.  資料中心級的智慧算力


不僅僅是預訓練大模型,當下很多人工智慧模型的生成過程是非常複雜的。算力依然是決定AI能力上限的關鍵因素。資料中心級的智慧算力,透過軟硬一體的聯合最佳化,能把我們從最底層硬體,到網路、系統、框架、再到最上邊的演算法,層層聯合最佳化,形成極致的算力最佳化效果,使得計算速度得到接近百萬倍的提升。可以說,超級的智慧算力是人工智慧越來越強大的基礎設施,是推動各行各業走向智慧化的驅動引擎。


如何讓每個AI創新者擁有這些能力?

剛才介紹了兩種驅動力,可是我們每一位開發者能夠擁有這樣的驅動力嗎?其實橫亙在開發者、創新者和剛才的兩種驅動力之間的,還有很多的障礙。


首先是算力消耗。以我們耳熟能詳的語言類大模型GPT-3為例,高達1750億個引數,訓練這樣的模型消耗的資源,相當於開一輛汽車,從地球開到月球往返一次的能耗費用。這個例子還只計算了資源的部分, 其實這輛“車”本身也造價不菲,大家都知道異構計算的底層硬體非常昂貴,一般的開發者創新者,很難用得起這樣的資源。


人才和工具鏈也是挑戰。在AI整個創新過程當中,人才也是非常非常重要的一種資源。在這個領域,我們既需要具備一定的領域知識,還要懂AI、還要懂資料技術,這類人才現在無疑是非常寶貴的。此外,我們曾經針對AI開發做過一個調研,如果完整走一遍AI研發端到端的流程,大概需要使用到多少工具或者產品?結果非常驚人,至少12種。可想而知,整個工作鏈有多複雜。


AI 工程化最佳實踐:基於阿里雲訓練出全球最大預訓練模型M6

剛才講到達摩院的預訓練大模型M6。其實 M6的生產過程本身就是解決上述挑戰的典型例子 。M6的引數規模達到了10萬億,是全球最大的預訓練模型。與傳統AI模型相比,大模型擁有成百上千倍的神經原數量,經常表現出像人類一樣的舉一反三的學習能力。因此,大模型普遍被認為是未來的基礎模型,會成為下一代AI基礎設施。下面我們看看這個大模型到底怎麼來的?

image.png

首先來看資源問題。M6基於阿里雲高效的雲原生機器學習平臺PAI進行訓練。PAI依託豐富的場景,包括服務阿里巴巴內部和阿里雲上客戶的諸多場景,錘鍊了超大規模分散式訓練的最佳實踐,並透過PAI-EPL分散式訓練框架對外提供訓練加速能力。PAI-EPL框架具備豐富的分散式訓練架構,包括資料並行,模型並行,流水並行等。最關鍵的,AI模型訓練是一個反覆迭代的計算過程,PAI-EPL框架可以在迭代過程當中,自動地幫助使用者尋找合適的並行方式,在不同階段對症下藥。這樣能夠帶來接近線性的分散式加速能力,大幅降低超大規模模型的訓練成本。

image.png

如果說訓練是一次性的或者週期性的,那麼推理可能每時每刻都在發生,當模型真正投入到日常應用中去,就離不開推理。PAI-Blade可以提供一站式通用推理最佳化工具。簡單講,它透過模型壓縮演算法,把模型變小再變小之後,模型的承載效率會變高。但是這個變小的過程,也非常有技術含量。模型在變小的過程中,效果不能變差,準確度不能有損耗。


此外我們結合阿里巴巴自研的AI編譯器,自動針對目標環境去進行最佳化。目標環境可能是各種各樣的異構硬體資源,AI編譯器可以把整個效率推升到極致,底層支援CPU、GPU、以及含光、海光等硬體。作為通用的推理最佳化工具,除了效能上有提升,更關鍵的是易用性,我們希望透過PAI-Blade工具,能將最佳化過程對使用者透明,儘量避免使用者修改模型程式碼,提升便利性。


大資料AI一體化平臺: 支撐AI研發全生命週期

這裡我們解決了機器資源的問題、訓練效能和推理效能問題,下一個問題是如何提升資料科學家的工作效率。阿里雲建立了大資料AI一體化平臺,一站式支撐整個AI研發的生命週期。


今天,隨著AI技術的增強,AI研發效率的問題變得越來越複雜和嚴峻。放在很多年前,我們用AI解決哪些問題?最典型的就是文字識別,解決這類問題只涉及幾種資料,一堆照片、拍下來的手寫文字、以及兩者間的對應關係,齊了。可以說在那個時代,大家很難感受到對大資料+AI一體化的平臺的需求。現在呢,我們在用AI解決智慧搜尋、智慧推薦、自動駕駛、科學計算、智慧互動等等問題,而這些場景需要這樣哪些資料呢?需要把資料倉儲當中代表著認知智慧的結構化資料和資料湖裡邊代表著這些感知智慧的(例如視覺、語音等等)資料,兩類資料綜合在一起使用,才能解決最終的業務問題,整個過程十分複雜。

image.png

我們透過阿里靈傑大資料AI平臺,支撐了從資料標註、資料開發、到模型設計、訓練、推理、部署整套的工作流。AI研發本身是一個持續迭代的過程,所以使用者還需要對效果進行監控,一旦發現效果不理想,還要回來重新再訓練這個模型。這一整套流程都可以用阿里靈傑大資料AI一體化平臺解決,最大程度降低了從開發到生產,到運維的複雜度和成本。


連結龐大的AI開放生態,持續創造價值

在強大的PaaS平臺的有力支撐下,阿里雲構建了豐富的AI開放生態。基於我們最基礎的語音、視覺、NLP等基礎技術,提供了上百種SaaS化AI服務,這些服務非常簡單易用。我們在雲上的AI服務,每天呼叫次數超過一萬億次,我們為廣大使用者提供了穩定和可靠的AI服務體系。


此外,阿里雲整體服務了超過100萬AI開發者。AI開發者可以在我們的平臺上獲得開箱即用的技術服務、最佳實踐和學習資源。


最後,阿里雲作為中國雲端計算的領導者,我們深入到各行各業,積累了大量的客戶以及應用需求,為我們的開放生態中的所有參與者,提供了最直接的業務支援,形成了生態與企業需求之間的良性互動。


AI for Science 是近期非常火的領域,而 AI和智慧計算在生物醫藥等領域正在發揮它的作用,而且有非常喜人的成果。深勢科技透過多尺度建模結合機器學習的創新方法,在確保模擬精度的同時,引入深度學習演算法處理大規模資料計算問題。


在這個過程中阿里雲透過PAI平臺自研AI編譯器利用協同最佳化、編排最佳化等手段,將深勢的機器學習訓練效率提升5倍以上,幫助加速了新材料和新藥物研發的程式。

image.png

我們將持續透過全棧AI服務、高效的機器學習平臺、以及門檻更低更易用的模型服務,助力廣大開發者。驅動AI理想落進現實,為創新者加速,為開拓者鋪路。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004426/viewspace-2913115/,如需轉載,請註明出處,否則將追究法律責任。

相關文章