大模型的「狂飆時代」,以開源之力推動「新Linux底層作業系統」

張哥說技術發表於2023-03-03

機器之心原創

作者;蛋醬

相比於造一個 ChatGPT,這個開源平臺更想成為「大模型時代的 Linux」。


2022 年末,ChatGPT 橫空出世,成為人工智慧領域的又一里程碑事件。業內人士曾預言,這可能是 AI 大模型的「iPhone 誕生時刻」。


作為前沿 AI 技術的集大成者,ChatGPT 引得海內外眾多科技公司跟進。但是做出對標 ChatGPT 的產品談何容易,無論算力、資料、人才還是研發投入,並不是每家企業都具備充分的實力。特別是對於一部分中小企業來說,自身雖然擁有豐富的行業知識和資料,但缺少大模型相關的技術沉澱,以至於有人指出「AI 大模型只是大公司的遊戲」。


國產 AI 大模型攻關之路,最難的點在哪裡?中小企業和開發者們想要入局 AI 大模型,到底需要哪些能力?有無通關捷徑?


智源研究院院長黃鐵軍指出,大模型時代需要的是「真正」的開源。這種開源不是受到企業影響較大的開源(譬如 Android),而是像 Linux、RISC-V 和 2022 年完全轉入開源社群的 PyTorch 那樣,完全發展於開源社群的「大家」的開源。


當下的中國 AI 大模型生態建設,正在呼喚一個全面的、開源的技術體系。


智源研究院與多家企業、高校和科研機構共同開發出了 FlagOpen(飛智)大模型技術開源體系,旨在打造全面支撐大模型技術發展的開源演算法體系和一站式基礎軟體平臺,支援協同創新和開放競爭,共建共享大模型時代的「新 Linux」開源開放生態。


演算法、模型、資料、工具、評測

一站式開源大模型技術體系


FlagOpen(飛智)是一站式、高質量的大模型開源開放軟體體系,包括大模型演算法、模型、資料、工具、評測等重要組成部分。


大模型的「狂飆時代」,以開源之力推動「新Linux底層作業系統」


FlagOpen 開源平臺入口:


FlagOpen 的核心部分是 FlagAI,這個開源專案涵蓋了大模型演算法、模型及各種最佳化工具。


大模型的「狂飆時代」,以開源之力推動「新Linux底層作業系統」


專案地址:


FlagAI 不僅整合了全球各種主流大模型演算法技術,還包括多種大模型並行處理和訓練加速技術,支援高效訓練和微調。專案涵蓋了多個領域明星模型,如語言大模型 OPT、T5,視覺大模型 ViT、Swin Transformer,多模態大模型 CLIP 等。


作為 FlagOpen 的牽頭髮起者,智源研究院也持續將「悟道」大模型專案成果開源至 FlagAI,包括「悟道 2.0」通用語言大模型 GLM,「悟道 3.0」視覺預訓練大模型 EVA,視覺通用多工模型 Painter,文生圖大模型 AltDiffusion(多語言),文圖表徵預訓練大模型(多語言)、EVA-CLIP(英文),阿拉伯語大模型 ALM,百億語言基礎模型 CPM3 等。


目前,FlagAI 已經加入 Linux 基金會,希望吸引全球科研力量對大模型技術共同創新、共同貢獻。


與主攻演算法開源的其他技術社群不同,FlagOpen 平臺還圍繞大模型創新的各個方面,提供了 AI 異構晶片基準測試、模型評測、資料處理等配套開源工具,包括:


  • FlagPerf:面向多種 AI 硬體的一體化評測引擎。探索開源、開放、靈活、公正、客觀的 AI 硬體評測體系,建立支援多種深度學習框架、最新主流模型評測需求、易於 AI 晶片廠商插入底層支撐工具的 AI 系統評測生態。不以排名為核心目標,以提供行業價值、促進 AI 產業生態發展為願景;


  • FlagEval:多領域、多維度的基礎大模型評測開源專案。探索大模型自動評測技術,推動大模型技術創新和產業應用。首先開放了近期備受關注的多模態領域 - CLIP 系列模型評測工具,支援多語言多工、開箱即用。更多領域、更多維度的評測工具將陸續釋出;


  • FlagData:開箱即用、易於擴充套件的資料工具開源專案。包含清洗、標註、壓縮、統計分析等功能在內的多個資料處理工具與演算法,為自然語言處理、計算機視覺等領域的模型訓練與部署提供了資料層面的有力支撐;


  • FlagStudio:智源研究院應用文生圖、文生音樂等人工智慧模型支援藝術創作相關的開源專案集合。利用圖文、聲文等多模態模型,依託研究院在 NLP 和 CV 領域大模型的研究基礎,為藝術創作提供更加符合中文場景的人工智慧開源演算法和模型,使創作效率更加高效,創作空間更加開闊,創作成果更加細膩;

  • FlagBoot:基於 Scala 開發的輕量級高併發微服務框架。FlagBoot 框架是預設完全非同步的,微服務處理任何一個 API 都是完全非同步執行的,幫助開發者對非同步執行緒控制進行效能良好的統一管理。FlagBoot 中沒有宏、隱式轉換等晦澀難懂的程式碼,再加上 FlagBoot 的程式碼量極少,使得開發者能夠輕易地瞭解 FlagBoot 的邏輯,並進行自定義的修改。


基於 FlagOpen,國內外開發者可以快速開啟各種大模型的嘗試、開發和研究工作,企業可以低門檻進行大模型研發。同時,FlagOpen 大模型基礎軟體開源體系正逐步實現對多種深度學習框架、多種 AI 晶片的完整支援,支撐 AI 大模型軟硬體生態的百花齊放。


目前,FlagOpen 大模型技術開源體系也正在與 Linux 基金會等全球開源代表組織與機構積極合作,加快建設面向全球的大模型技術開源生態。


大模型時代的「Linux」


說到 Linux 在網際網路時代的開創性意義,很多人都能領會。打造大模型時代的「Linux」,又意味著什麼?智源研究院在其中擔任何種角色?


大模型的「狂飆時代」,以開源之力推動「新Linux底層作業系統」


這就要從大模型的發展歷程開始說起。2020 年,OpenAI 釋出了基於 Transformer 的 1750 億引數「GPT-3」,讓人們領略了「大模型」的魅力。後來的這幾年,海外的頂尖學術機構和業界實驗室爭相入局,造出了 Switch Transformer、威震天 - 圖靈、PaLM、Gato 等知名大模型。


在國內的 AI 領域,智源研究院是最早投入研發「大模型」的學術機構,是國內大模型研究的先行者。從 2020 年搭建大模型攻關團隊,到 2021 年 6 月推出當時規模最大、效能領先的大模型「悟道 2.0」,再到今天的在多模態領域能力全線領先的「悟道 3.0」,智源研究院預見並見證了從「大煉模型」」到「煉大模型」的趨勢轉變。此外,智源研究院從 2020 年起培育和支撐了國內第一批大模型領域的科研人才和團隊的快速成長,這些人才和團隊已經成為活躍在國內大模型舞臺的中堅力量。


或許是這些前人的經驗與智慧,催生出了劃時代意義的「ChatGPT」。人們可以透過同一個模型完成多場景任務,大模型成為了支撐無數智慧應用的基礎平臺,使得人工智慧技術的大規模應用變為可能,加速了智慧時代的真正到來。


但從學術研究、產業落地的維度去展望,我們仍意識到,ChatGPT 想要從一種前沿技術轉變為全民普及的應用產品,還缺少「開源作業系統」這種關鍵要素的推動。當前深度學習階段的人工智慧系統具有難以透徹理解的技術特性,智慧時代不應封閉、必須開放、最好開源,特別是作為基礎平臺的大模型需要全面開源、接受監督,才能得到信任、採納和廣泛應用。


正如近段時間的 AI 圈流傳甚廣的一張圖:


大模型的「狂飆時代」,以開源之力推動「新Linux底層作業系統」


黃鐵軍指出,大模型是中間狀態,既不是最終的服務,也不是研發物件。ChatGPT 的火熱只是大模型技術「海平面以上」的冰山一角,可以理解為「一種標誌性的 AI 產品」,但深藏於「海平面以下」的大模型技術體系才是更值得關注的部分。


FlagOpen 正是為了建立大模型技術體系而開展的基礎性工作,其建立初衷就如同多年前的 Linux,不同之處在於,如今大模型領域的「Linux」在壟斷力量形成之前就已成立,並將透過開源開放的形式促進各類機構共創共享,形成良好生態,共同打牢大模型發展根基。


「授人以魚,不如授人以漁」


在大模型的浪潮之後,未來走什麼樣的技術路線,什麼樣的演算法、技術會在裡面發揮重要的作用,還是一個開放的問題。


這一領域註定會湧入大量的創新型人才,在前所未有的歷史機遇裡找到自己的位置,為大模型技術體系做出自己的貢獻。而實現這一願景的方法,不應該僅限於加入大公司或者少數極有實力的機構這一條路徑。


自 ChatGPT 爆火之後,追逐熱點的行為並不少見。但深思熟慮之後,我們能夠得出結論:與其說「誰會成為中國的 OpenAI」,不如關注可以做些什麼推動中國誕生更多的「OpenAI」。


「智源的 FlagOpen 希望為這些搞大模型研究的人提供展示、驗證自己能力的平臺,推動學界、業界等多方協同,而不是隻有少數幾個機構、企業掌握相關的技術和資源,推動大模型研究的長遠發展。」黃鐵軍表示。


這也是 FlagOpen 的出發點:從長遠考慮,打好根基,形成完整的大模型技術體系及強大的資源能力,才能產生更多的「ChatGPT 級」的現場級應用。


FlagOpen 的推出也許會深刻影響未來的中國 AI,更與時代中的每一位 AI 開發者息息相關。


© THE END 

轉載請聯絡本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2938071/,如需轉載,請註明出處,否則將追究法律責任。

相關文章