巨量AI模型,為何微軟、浪潮、英偉達們都盯著它?

dobigdata發表於2021-10-16

毫無疑問,人工智慧乃當下最為吸晴的科技話題,從AlphaGo連勝多位人類圍棋頂尖高手,到波士頓機器人炫酷的訓練影片,再到特斯拉的人形機器人,甚至創業導師時不時丟擲“未來XX年,一半工作將消失”的觀點也總能吸引一大堆討論。

然而現實世界中,我們經常會被智慧客服的各種“智障”表現而無奈、為語音助手突然“發狂”而苦笑、為醫療機器人開出的錯誤藥方而擔憂……歸根結底,人工智慧的發展離達到符合人們預期和使用依然有著較長的距離。

因此,巨量AI模型正加速浮出水面,被認為是解決各種AI挑戰的重要路徑。最近幾年,無論是國外谷歌、微軟,還是國內浪潮、阿里等,都在加碼巨量AI模型的研發與投入。短短一段時間裡,前有谷歌BERT、OpenAI GT-3等模型釋出,後有浪潮釋出全球最大中文AI巨量模型1.0、“微軟英偉達推最大單體AI語言模型”,將巨量AI模型的競爭推向了新高潮。

為什麼會出現巨量模型

在AI的世界裡,理想很豐滿、現實很骨幹。

如果你瞭解過北京西二旗以及北京周邊的大量資料標註工廠,你就會認為“有多少人工,就有多少智慧”這句揶揄之語並非虛言。坊間甚至都說,離開了那些資料標註工廠,AI將寸步難行。

如今,AI發展的確遇到了現實困境:

  • 往往是模型具有專用特定領域,一個場景對應一個模型,需要耗費大量的人力與資源在構建和訓練模型上;
  • 其次,資料質量參差不齊,資料樣本少;
  • 最後,模型精度差,訓練效果差,訓練週期長,導致模型在真實場景中應用效果差強人意。

歸根結底,這種專案式的AI應用現狀的確是目前阻礙AI大面積落地的最大挑戰。有何解決之道?現在業界認為,預訓練巨量模型正在著力改變這種局面,是解決AI應用開發定製化和碎片化的重要方法。巨量模型目的是實現一個巨量AI模型在多個場景通用、泛化和規模化複製,減少對資料標註的依賴,大幅降低AI開發與應用的使用成本,真正有希望讓AI開啟工業化規模應用的局面。

巨量AI模型,為何浪潮微軟英偉達都盯著它?

這也推動了人工智慧從“大煉模型”逐步邁向了“煉大模型”的階段,利用先進的演算法,整合大規模的資料,匯聚大量算力,訓練出巨量人工智慧模型。針對源1.0等目前市場上釋出的巨量模型,浪潮資訊副總裁劉軍有個形象的比喻:能進化、更智慧的大腦,類似元宇宙中的生命,其複雜綜合系統的能力決定了未來在數字世界的智慧水平程度。

史丹佛大學李飛飛教授等人工智慧領域知名學者近期也在論文中表示,巨量模型的意義在於突現和均質。突現意味著透過巨大模型的隱含的知識和推納可帶來讓人振奮的科學創新靈感出現;均質表示巨量模型可以為諸多應用任務泛化支援提供統一強大的演算法支撐。

可以說,人工智慧如何發展出像人類一樣的符合邏輯、意識和推理的認知能力,除了加速深度學習技術、開發全新演算法正規化等研究方向外,大規模資料訓練超大引數量的巨量模型一定是未來重要發展方向。

源1.0是如何煉成的

提到巨量模型,就不得不提OpenAI。

去年,OpenAI組織釋出了GPT-3模型,該模型擁有1750億引數量、500G高質量預訓練資料集,相比於上一代GPT-2模型,各方面資料提升了百倍有餘,一下將模型體量提升到一個新高度。隨著OpenAI GPT-3的釋出,業界也見識了巨量模型的威力。根據OpenAI年初公佈的資料顯示,GPT-3推出9個月以來,已有 300 多種不同的應用程式在使用 GPT-3,且全球數以萬計的開發人員正在基於該平臺開發,每天可產生 45 億個字。

自此,巨量模型開啟了“刷引數”的模式:阿里達摩院M6模型1萬億引數量、Google Switch Transformer 1.6萬億引數量、微軟英偉達Megatron-Turing模型5300億引數量、浪潮源1.0模型2457億引數量……

在動輒千億、萬億引數量的巨量模型面前,我們還需要了解巨量模型的兩種實現模式:一種則是“混合模型”,如Google Switch Transformer、阿里達摩院M6等;另一種則是“單體模型”,如浪潮源1.0、微軟聯合英偉達釋出的Megatron-Turing等。所謂“混合模型”即是由多個相對較小的模型組成,然後透過開關的方式組合起來;而“單體模型”則對算力、演算法最佳化、資料分佈、模型引數與結果最佳化等方面要求更高,其模型精度也更高。

巨量AI模型,為何浪潮微軟英偉達都盯著它?

“巨量模型的是一門技術門檻特別高的研究工作,它開展工作的前提是大規模叢集。除了將叢集用起來,還需要發揮好的效能,需要在模型演算法、分散式計算等各個層面協同設計、最佳化,浪潮在這些方面都有著很深的積累。”浪潮人工智慧研究院首席研究員吳韶華博士如是說。

浪潮人工智慧研究院於9月底釋出源1.0就是屬於典型的“單體模型”。作為全球最大中文語言(NLP)預訓練模型,源1.0模型引數量高達2457億,訓練採用的高質量中文資料集高達5000GB,相比GPT-3模型1750億引數量和570GB訓練資料集,源1.0引數規模領先40%,訓練資料集規模領先近10倍,在預訓練資料量方面甚至比微軟英偉達Megatron-Turing高6倍。

源1.0所聚焦的自動然語言處理(NLP)模型堪稱人工智慧明珠,相比於機器視覺、語音識別等感知智慧,自然語言處理模型屬於更具難度的認知智慧,聚焦在理解、思考問題,並給出合適答案。在自然語言處理領域,中文的理解又更具難度,相比於英文有空格作為分隔符,中文分詞缺乏統一標準,同樣一個詞彙在不同語境、不同句子中的含義可能會相差甚遠,加上各種網路新詞彙參差不齊、中英文混合詞彙等情況,要打造出一款出色的中文語言模型需要付出更多努力。

以源1.0為例,浪潮人工智慧研究院在預訓練資料集上就投入了大量的精力,在海量中文網際網路等各方面尋找到公開資料,匯聚成龐大的資料集之後,進行清洗、整理,最終形成5000G規模的高質量中文訓練資料集。

模型規模是越來越大,但實際應用效果不行也是白搭。來看看源1.0的實際表現,在權威中文語言理解測評基準CLUE中,源1.0佔據零樣本學習(zero-shot)和小樣本學習(few-shot)2項榜單榜首,在10項子任務中獲得冠軍,在成語閱讀理解填空專案中,源1.0的表現已超越人類的智慧。

如何理解源1.0所取得的測試成績?零樣本學習(zero-shot),考驗的是模型直接應用到特定場景中的能力;小樣本學習(few-shot)則是投入少量資料樣本,模型的精度即可大幅提升起來。零樣本學習和小樣本學習能力越強,意味著該模型就越有可能在多個場景中實現通用、泛化和規模化複製,對於降低AI使用門檻是大有裨益,這也是目前巨量模型最為聚焦的競爭點。

再來看看源1.0挑戰“圖靈測試”的成績。圖靈測試是判斷機器是否具有智慧的最經典的方法。在對源1.0進行的“圖靈測試”中,將源1.0模型生成的對話、小說續寫、新聞、詩歌、對聯與由人類創作的同類作品進行混合並由人群進行分辨,測試結果表明,人群能夠準確分辨人與“源1.0”作品差別的成功率已低於50%。

模型開放AI走向普及是必然路徑

隨著巨量模型近年來所取得的成功,以及在多工泛化及小樣本學習上的突出表現,讓人們看到了探索通用人工智慧的希望。眾所周知,要想真正進入到一個智慧世界,通用人工智慧技術的突破性進步與普及速度是關鍵,巨量模型的快速發展必然對於數字化、智慧化有著巨大推動作用。

但AI真正走向普及,巨量模型開放是一條必然之路。這點從OpenAI GPT-3釋出一年以來所帶來的廣泛影響中可見一斑。

巨量AI模型,為何浪潮微軟英偉達都盯著它?

事實上,巨量模型從自身定位來看,其本身扮演著降低AI門檻、提升創新速度的角色;而且透過開放的方式,在更加廣泛的應用場景中得到使用,巨量模型可以不斷最佳化與提升,形成閉環;更加關鍵的是,未來的數字世界廣闊應用空間,決定需要更多、更出色的巨量模型來加速構建智慧世界。

以浪潮為例,浪潮源1.0致力於打造最“博學”的中文AI模型,計劃面向科研機構和行業客戶開放能力介面和開發介面,降低AI開發者和行業使用者的使用門檻,以更通用的人工智慧大模型賦能科研創新、公共服務智慧化升級和產業AI化應用,讓智慧更快普及到社會民生經濟與科技創新等各個領域。

未來已來,未來可期!以源1.0為代表的巨量模型正在開啟人工智慧發展的下一個階段,巨量模型猶如諸多智慧應用的源頭,為智慧應用提供源源不斷的智慧源泉。而浪潮源1.0的釋出,也標誌著中國廠商在通用人工智慧的探索上走在了業界的前列,有望為千行百業數字化轉型和智慧化升級注入源源不斷的中國智慧。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2837719/,如需轉載,請註明出處,否則將追究法律責任。

相關文章