讓AI拋棄“小作坊”,擁抱“工業化”:盤古大模型究竟是什麼?

naojiti發表於2021-07-12

如果你想要一臺冰箱,結果只能買到壓縮機,金屬皮膚、塑料儲物盒,需要自己進行組裝;如果你想要一臺汽車,結果拿到一坨橡膠,需要自己從頭造輪胎,你將會是什麼心情?

目前AI開發的狀態與上面舉的例子很像。熟悉AI的朋友知道,AI應用開發是碎片化、定製化的,場景稍有變化就要重新進行資料處理,海量引數調優,反覆迭代。如果模型達不到期望的目標,還要把這個過程推倒重來,模型開發週期動輒一個月,甚至數月。這種耗費大量人工的方式說明AI開發還處於作坊模式中。

在2021WAIC期間,華為雲盤古預訓練大模型被評選為大會的“鎮館之寶”,為AI帶來了工業化開發新模式。我們不妨就著“鎮館之寶”四個字,來掰扯掰扯盤古大模型究竟是什麼,預訓練模型又與AI工業化之間存在著怎樣的關聯。

2018年GPT 和 BERT的橫空出世,引發了AI行業內外的共同關注。NLP領域的大規模預訓練模型,從邏輯上來解釋的話,就是採用自監督學習能力在大規模算力的支援下學習海量引數的資料。這不僅讓NLP演算法能力有了革命性突破,還將大量原本需要使用者完成的訓練任務預先完成。打個比方,這就像學校先把各種知識教給學生,讓他有了基本的行業常識,而不是等到進入企業之後再從頭識字,從而降低了企業的培訓成本。

如今,大規模預訓練模型已經成為全球主流AI廠商、研究機構的“必備功課”,訓練引數與算力投入量也水漲船高。OpenAI在2020年釋出的GPT-3已經達到了1750億引數量、上萬GPU的驚人訓練規模。可以說,大規模預訓練模型既要考驗廠商的演算法創新、調參與優化能力,又是對資料能力、平行計算能力、網路架構能力、開發工具和能力的全面大考。想要讓AI在廠商一側就變成工業化、標準化的“準完成品”,需要投入的技術實力與產業資源都遠超大部分AI產品。

想要“鎮”住AI工業化中出現的種種挑戰,練就真正能解決問題的AI大模型,需要同時具備高效演算法、澎湃算力,海量資料吞吐能力基礎。

在2021WAIC開幕式上,華為輪值董事長鬍厚崑在演講中介紹了盤古大模型。他認為當前AI的普及應用的瓶頸首先不在技術上,技術已經有了相當的發展,也不在應用上,因為應用的需求都已經蓬勃而出了。它的瓶頸在於開發的效率上,現在的開發效率太低,AI應用的開發太慢,它嚴重阻礙了技術和需求的結合。

為了提高AI的開發效率,華為雲聯合夥伴推出了盤古系列預訓練大模型,包括業界首個兼具生成與理解能力的中文語言(NLP)大模型和視覺(CV)大模型。

想要具體感知到華為雲盤古大模型的能力,我們到WAIC的展館中一探究竟。盤古大模型在現場展示了成語填空、閱讀理解、快速分類三種能力。甚至連 “明明明明明白白白喜歡他,但他就是不說”這種奇葩句子,盤古大模型也能判斷出“白白喜歡誰?”“誰喜歡明明?”等問題。

讓AI拋棄“小作坊”,擁抱“工業化”:盤古大模型究竟是什麼?

優質的大模型需要三個核心能力,即:可以吸收海量資料的超大型神經網路、強壯的網路結構、優秀的泛化能力。華為雲盤古預訓練大模型除此之外,還有哪些獨特優勢呢?

首先,盤古預訓練大模型擁有領先的技術創新。

盤古NLP大模型首次使用Encoder-Decoder架構,兼顧NLP理解與生成的能力,且效能領先;在NLPCC生成任務上,Rouge score取得第一,比第二名提升60% 以上。該架構多工學習的方法,能夠讓大模型訓練更加穩定;同時基於提示的微調, 能夠在小樣本學習上超越GPT系列。訓練盤古NLP大模型使用了40TB的文字資料,包含了大量的通用知識,同時也沉澱了華為雲的許多行業經驗。盤古CV大模型在業界首次實現了模型的按需抽取,不同部署場景下抽取出的模型體積差異,動態範圍可達三個數量級;提出的基於樣本相似度的對比學習,憑藉小樣本學習能力在ImageNet上取得了業界領先的成績。

其次,盤古預訓練大模型擁有豐富的技術沉澱及應用實踐。

盤古預訓練大模型已經在多個行業、100多個場景成功驗證,包括能源、零售、金融、工業、醫療、環境、物流等等。其中,在能源領域,盤古預訓練大模型幫助行業客戶實現裝置能耗的智慧控制,可以節約電力成本50%;在金融行業中的異常財務檢測,讓模型精度提升20%以上; 在塵肺檢測中,病例識別準確率提升22%等等。

盤古已經在近百個行業場景中進行了應用,未來,華為雲盤古預訓練大模型還將上線華為雲AI資產共享社群(AI Gallery),將AI能力進一步開放出來。

既名“盤古”,便應該去開闢一些什麼。翻過AI工業化的山丘,彼端每一家企業、每一位開發者的心中都應該有一個“盤古”。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2780955/,如需轉載,請註明出處,否則將追究法律責任。

相關文章