大模型時代的AI之變與開發之根

naojiti發表於2021-09-28

自2018年穀歌釋出Bert以來,預訓練大模型以強大的演算法效果,席捲了NLP為代表的各大AI榜單與測試資料集。隨著產學研各界的深入研究,大模型在AI產學研各界的地位得到不斷加強。到2021年,我們可以看到各大學術機構、科技企業都在打造自己的大模型,並且將其能力邊界、技術路徑進行了極大擴充。

有人認為,AI大模型的到來讓這項技術完成了從實驗室到工業化整合的轉變。如果說過去的AI開發需要手工作坊模式的調參、調優、資料積累,那麼大模型則預先整合了海量資料的訓練效果,企業與科研使用者拿到手中就是一個“智力”強大、效果客觀的完成品。於是極大程度節省了重複開發成本,降低了開發門檻。

大模型的價值湧現出來,下一個問題隨之誕生:打造大模型需要人工智慧算力、網路、框架等一系列條件形成有效支撐,才能讓大模型真正“大”起來。大模型能夠持續發展的前提,是必須打造強壯的AI根技術,在框架、算力等層面滿足大模型的“建造”需求。

不久之前,中科院自動化所釋出了全球首個三模態大模型——紫東.太初。

而這項技術成果的背後,是中科院自動化所與華為攜手,利用全場景AI框架MindSpore對大模型開發進行了一系列支撐。9月25日, 在華為全聯接2021上,MindSpore中文名“昇思”釋出,同時推出昇思1.5版本。這一版本強化全場景能力、原生支援大模型,並新增AI科學計算新正規化,釋出電磁模擬套件和分子模擬套件,促進AI應用於科學計算領域。

我們就藉此機會,聊聊大模型如何從昇思1.5中汲取營養;持續打造大模型,需要開發框架帶來怎樣的根技術支援。

時代的召喚:大模型推動AI之變

預訓練大模型發展到今天,已經經歷了三年多的時間。期間最具“出圈”效應的大模型,可能就要屬2020年OpenAI釋出的NLP大模型GPT-3。

GPT-3首次實現了千億級資料引數,除了傳統的NLP能力之外,還可以算術、程式設計、寫小說、寫論文摘要,一時之間成為輿論熱點。GPT-3的出現,讓各界看到了大模型的潛力, 也讓中國開發自己的大模型成為了“時代的召喚”。

從產業價值上看,預訓練大模型帶來了一系列可能性,讓產學研各界看到了由弱人工智慧走向強人工智慧;由重複開發、手工作坊式人工智慧,走向工業化、整合化智慧的全新路徑。可以說,大模型是近兩年AI持續變革的核心動力,也是AI走入千行百業、各學科領域的關鍵支柱。

於是我們可以看到,中國的科技企業、學術科研機構紛紛開始加碼大模型,並且在不同路徑上進行探索和嘗試。比如說,Bert和GPT都是NLP領域的大模型,缺乏對圖形影像資料與多模態資料的處理能力。因此,多模態大模型成為了重要的研究方向。整合語音、文字、影像、視訊等各個模態資訊的處理模式,也更加貼近人類感知,具有更高的社會價值。

對於產學各界來說,資料量大、訓練效果好、網路拓撲結構緊湊,同時又容易獲取的預訓練大模型,都是未來學術研究、AI開發、產業升級的基礎和關鍵。大模型將很有可能改變AI的研究正規化,成為不同領域的共性基礎平臺。

中科院自動化所就瞄準這一方向,成功構建了視覺-文字-語音三模態預訓練模型——紫東.太初。而在其背後,華為提供的昇思1.5框架的能力,成為了打造大模型的利劍。

駛向多模態:紫東.太初的獨特價值

破混沌,開新局,紫東.太初這個極具魄力與東方文化質感的名字屬於全球首個三模態大模型(OPT-Omni-Perception pre Trainer)。它能夠實現圖文音語義的統一表達,將視覺、文字、語音三種模態統一起來,實現以文搜圖,以圖生音等跨模特理解與生成能力,這標誌著預訓練模型工作獲得突破性進展。

目前階段,產學研界最多的大模型就是NLP大模型,其次是CV大模型。而多模態大模型作為新生事物,基本也考慮的是兩個模態之間的協同轉化。比如影像與文字、視訊與文字,並且能力更多是集中在生成或理解中的一項,很少能夠兼顧。

紫東.太初為了解決這些問題,提出了視覺-文字-語音三模態預訓練模型。通過將視覺、文字、語音不同模態資料各自編碼器,對映到統一語義空間,然後通過多頭自注意力機制(Multi-head Self-attention)學習模態之間的語義關聯以及特徵對齊,形成多模態統一知識表示,再利用編碼後的多模態特徵,最終通過解碼器分別生成文字、影像和語音。經過這樣的對齊與轉化,大模型可以更加關注圖-文-音三模態資料之間的關聯特性以及跨模態轉換問題,對更廣泛、更多樣的下游任務提供模型基礎支撐。最終,多模態大模型不僅可以實現跨模態理解,還能完成跨模態生成,極大程度提升了學習框架的靈活性,有效降低了多模態資料的收集與清洗成本。

由於三模態大模型非常接近人類的資訊處理方式,其對資訊資料有非常好的協同掌握能力,因此可以非常廣泛地應用於產學各領域,孵化出更多新應用。紫東.太初目前已經具備全球領先的圖文音跨模態理解與生成能力,可輕鬆完成智慧問答、圖片生成、視訊理解與等任務,這些能力將在工業質檢、影視創作、網際網路推薦、智慧駕駛等領域廣泛應用。

而面向產業上游看,我們會發現紫東.太初的打造,得益於昇騰AI的產業底座。尤其是昇思對大模型的原生支援,讓大模型具備了快速開發、精準訓練的“開發之根”。

根強則AI強:昇思支援大模型時代到來

在MindSpore 全新升級的1.5版本中,我們不僅見到了全新的中文名——昇思,更重要的是見到了昇思新版本對科學研究、AI基礎開發的全新適配能力,展現了昇騰AI產業對新銳產學動向的洞察和滿足。

在科研工作中,AI開發經常是一件成本巨大、容錯率極低的工作。算力、資料、基礎模型和開發套件都會成為科研工作中的AI開發難題。面對這些問題,昇思1.5不僅極大提升了對大模型的適配能力,還強化升級了科學計算引擎,全面加強了對學術界、工業界的AI開發支援。

在大模型支援方面,昇思1.5版本實現了原生支援大模型,能夠在業界率先支援全自動並行AI處理。在大模型訓練中,可以同時使用資料並行、運算元級模型並行、Pipeline 模型並行、優化器模型並行、異構並行、重計算、高效記憶體複用多維度、全種類的分散式並行策略;並且原創叢集拓撲感知的多維度自動混合並行,實現超大模型自動切分,顯著提升叢集加速能力;新的 DNN分散式並行程式設計正規化,可以實現低程式碼演算法切換,大幅節省開發時間。

面對結構複雜、訓練開銷巨大、訓練時間漫長的多模態大模型,新的昇思特性可以極大提升訓練加速能力,同時減少系統效能優化代價,降低程式碼開發工作力,從而綜合性地減少除錯與訓練週期。

在這樣的框架能力升級中,會有更多創新性強、訓練資料規模大的預訓練大模型在昇思的支撐下發展起來。昇思自然也就名副其實成為了大模型的“根技術”。

目前,基於昇思訓練的大模型除了已經發布的全球首箇中文預訓練大模型鵬程.盤古、全球首個三模型預訓練大模型紫東.太初,還有即將釋出的智慧遙感大模型、語音大模型等等,可以說昇思框架對大模型支援的能力是業界首屈一指的。

與此同時,昇思1.5還新增了對外開放機制等諸多新特性,尤其注重在科研創新和應用領域的支援。通過多尺度混合計算和高階混合微分兩大關鍵創新,將原有的 AI 計算引擎升級為 AI 與科學計算的統一引擎,實現融合的統一加速。在此基礎上,未來昇思將面向 8 大科學計算場景推出 MindScience 系列套件。科學計算套件包含業界領先的資料集、基礎模型、預置高精度模型和前後處理工具,可以加速科學行業應用開發。

昇思將持續加強對科研領域AI開發的支援,尤其是為大模型這種“國之重器”的訓練底座。同時,昇騰社群和昇思MindSpore社群也會加強對大模型開源開放的支援。目前,昇思社群下載量已經突破60萬,社群貢獻者超過3500人。昇思正在與產學研各界一同推進開源開放,讓大模型真正成為科學之基、產業之本。

預訓練大模型正在推動一場AI新變革。而在關注這場變革之前,我們更應該關注根技術、根平臺的打造與建設。

堅實的產業基礎之上,才能產學各界萬花盛放。AI大模型之變,應該有強壯的根。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2794278/,如需轉載,請註明出處,否則將追究法律責任。

相關文章