揭秘:階躍星辰萬億MoE+多模態大模型矩陣亮相

机器之心發表於2024-07-04

在 2024 年世界人工智慧大會的現場,很多人在一個展臺前排隊,只為讓 AI 大模型給自己在天庭「安排」一個差事。

圖片

具體流程是這樣的:首先, AI 會管你要一張個人照片,並參考《大鬧天宮》畫風生成你在仙界的形象照。接下來,它會引導你進入一個互動式的劇情選擇和交談環節(其實是 AI 大模型自己編的劇情),然後根據你的選擇和回答評估出你的 MBTI 人格型別,並根據這個型別為你在天庭「安排」一個差事。

當然,除了現場排隊,你還可以線上體驗(掃描下方二維碼即可)。

圖片

這是大模型創業公司階躍星辰與上影合作的 AI 互動體驗《AI + 大鬧天宮》。但其實,這只是開胃菜,目的是讓大眾直觀地感受大模型的魅力所在。在今年 WAIC 期間,他們還結結實實地亮了一些大招,包括萬億引數 MoE 大模型 ——Step-2 正式版、千億引數的多模態大模型 ——Step-1.5V,以及影像生成大模型 Step-1X

Step-2 這個模型最早是在 3 月份和階躍星辰公司一起亮相的,當時還是預覽版。如今,它進化出了全面逼近 GPT-4 體感的數理邏輯、程式設計、中文知識、英文知識、指令跟隨等能力。

有了這個模型做基礎,階躍星辰進一步訓練出了多模態大模型 Step-1.5V。它不僅擁有強大的感知和影片理解能力,還能夠根據影像內容進行各類高階推理,如解答數學題、編寫程式碼、創作詩歌等。

《AI + 大鬧天宮》的影像生成則是由另一個模型 ——Step-1X 來完成的。從生成結果中,我們能感覺到這個模型針對中國元素所做的深度最佳化。此外,它還有良好的語義對齊和指令遵循能力。

在幾家知名的國內大模型公司中,階躍星辰幾乎是亮相最晚的一個,但卻搶先形成了「萬億引數 MoE 大模型 + 多模態大模型」的大模型矩陣,站穩了「大模型創業公司第一梯隊」。這背後離不開他們對 Scaling Law 的堅持以及與之匹配的技術、資源實力。在這篇文章中,我們將詳細介紹階躍星辰此次公佈的幾款模型,以及其背後體現的技術思路。

從頭訓練的

Step-2 萬億引數大模型

引數量突破萬億,模型的數學、程式設計等涉及推理的能力都會顯著提升。就像當初,我們用過 GPT-4 就再也不想回頭用 GPT-3.5 一樣,Step-2 也完成了這種跳變。相比之前的千億級別模型,它能解決的數理邏輯、程式設計問題明顯比之前更難了。一些基準評測的量化結果也說明了這一點。

圖片

此外,它的中英文能力和指令跟隨能力也實現了明顯提升。

Step-2 之所以表現如此優異,一方面得益於它巨大的引數量,另一方面也得益於它的訓練方法。

我們知道,訓練 MoE 模型主要有兩種方式。一種是 upcycle,即透過重新利用訓練過程的中間結果或已經訓練好的模型,以更高效和更經濟的方式進一步提升模型效能。這種訓練方式算力需求低,訓練效率高,但訓練出的模型往往上限要低一些。比如,在訓練 MoE 模型時,如果多個專家模型是透過複製和微調相同的基礎模型得到的,那麼這些專家模型之間可能會存在高度相似性,這種同質化會限制 MoE 模型的效能提升空間。

考慮到這些侷限,階躍星辰選擇了另一種方式 —— 完全自主研發,從頭開始訓練。這種方式雖然訓練難度高、算力消耗大,但能獲得更高的模型上限。

具體來說,他們首先在 MoE 架構設計方面做了一些創新,包括部分專家共享引數、異構化專家設計等。前者可以確保某些通用能力在多個專家之間共享,但同時每個專家仍然保留其獨特性。後者透過設計不同型別的專家模型,使每個專家在特定任務上都有獨特的優勢,從而增加模型的多樣性和整體效能。

基於這些創新,Step-2 不僅總引數量達到了萬億級別,每次訓練或推理所啟用的引數量也超過了市面上大部分的密集模型。

此外,從頭訓練這樣一個萬億引數模型對於系統團隊也是很大的考驗。好在,階躍星辰系統團隊擁有豐富的系統建設與管理實踐經驗,這讓他們在訓練過程中順利突破了 6D 並行、極致視訊記憶體管理、完全自動化運維等關鍵技術,成功完成了 Step-2 的訓練。

站在 Step-2 肩膀上的
Step-1.5V 多模態大模型

三個月前,階躍星辰釋出了 Step-1V 多模態大模型。最近,隨著 Step-2 正式版的亮相,這個多模態大模型也升級到了 1.5 版本。

Step-1.5V 主要側重多模態理解能力。與之前的版本相比,它的感知能力大大提升,能夠理解複雜圖表、流程圖,準確感知物理空間複雜的幾何位置,還能處理高解析度和極限長寬比的影像。

圖片

此外,它還能理解影片,包括影片中的物體、人物、環境以及整體氛圍和人物情緒。

前面提到,在 Step-1.5V 的誕生過程中,Step-2 功不可沒。這指的是,在 Step-1.5V 進行 RLHF(基於人類反饋的強化學習)訓練過程中,Step-2 是作為監督模型來用的,這相當於 Step-1.5V 有了一個萬億引數的模型當老師。在這個老師的指導下,Step-1.5V 的推理能力大大提升,能夠根據影像內容進行各類高階推理任務,如解答數學題、編寫程式碼、創作詩歌等。這也是 OpenAI GPT-4o 最近所展示的能力之一,這項能力讓外界對於它的應用前景充滿了期待。

多模態的生成能力主要體現在 Step-1X 這個新模型上。與一些同類模型相比,它有更好的語義對齊和指令跟隨能力,同時針對中國元素做了深度最佳化,更適合國人的審美風格。

基於該模型打造的《大鬧天宮》AI 互動體驗的背後融合了影像理解、風格遷移、影像生成、劇情創作等多種能力,豐富立體地展現了階躍星辰行業領先的多模態水平。例如,在初始角色生成時,系統首先會判斷使用者上傳的照片是否符合「捏臉」要求,然後用非常《大鬧天宮》的語言風格靈活給予反饋。這裡就體現了模型的圖片理解能力和大語言模型的能力。在大模型技術加持下,這款遊戲就讓玩家獲得了和傳統線上 H5 遊戲完全不同的互動體驗。因為所有的互動問題、使用者形象、分析結果都是模型實時學習特徵後生成的,真正做到了千人千面和無限劇情的可能。

圖片

這些優異的表現離不開階躍星辰全鏈路自研的 DiT 模型架構(OpenAI 的 Sora 也是 DiT 架構)。為了讓更多人用上該模型,階躍星辰給 Step-1X 設計了 600M、2B、8B 三種不同的引數量,以滿足不同算力場景的需求。

在 3 月份的亮相活動中,階躍星辰創始人姜大昕曾明確指出,他認為大模型的演進會經歷三個階段:

  • 在第一個階段,語言、視覺、聲音等各個模態是獨立發展的,每個模態的模型專注於學習和表徵其特定模態的特點。

  • 在第二個階段,不同的模態開始走向融合。但這個融合並不徹底,理解和生成任務依然是分開的,這造成模型理解能力強但生成能力弱,或者反之。

  • 在第三個階段,生成和理解被統一在一個模型裡,然後去和機器人充分結合,形成具身智慧。接下來,具身智慧去主動探索物理世界,然後逐步演變成世界模型,進而實現 AGI。

這也是姜大昕等人從創業之初就在堅持的路線。在這條路上,「萬億引數」和「多模融合」缺一不可,Step-2 和 Step-1.5V、Step-1X 都是他們在這條路上達成的節點。

而且,這些節點是一環套一環的。以 OpenAI 為例,他們在年初發布的影片生成模型 Sora 使用了 OpenAI 的內部工具(很可能是 GPT-4V)進行標註;而 GPT-4V 又是以 GPT-4 相關技術為基礎訓練出來的。就目前來看,單模態模型的強大能力會為多模態打下基礎;多模態的理解又會為生成打下基礎。靠著這樣的模型矩陣,OpenAI 實現了左腳踩右腳。而階躍星辰正在國內印證這條路線。

我們期待這家公司給國內大模型領域帶來更多驚喜。

相關文章