圖片來源於網路 姜大昕認為,之所以出現這種情況,是因為在現階段,多模態理解和生成的任務是分開來進行的(分成了兩條支線),造成的後果是理解模型的理解能力強,但是生成能力弱;生成模型的生成能力強,但理解能力弱。要解決這個問題,就要實現多模態理解和生成的統一。這是「通向 AGI 的必經之路」,也是階躍星辰現在主攻的方向。 目前,階躍星辰已經在多模態的理解方面取得了顯著進展。他們的 Step-1V 多模理解能力突出,可以精準描述和理解影像中的文字、資料、圖表等資訊,並根據影像資訊實現內容創作、邏輯推理、資料分析等多項任務。這為後續的多模態生成以及多模態理解與生成的統一打下了一個良好的基礎。 「我們內部說,學習 OpenAI 的時候,要學其『神』,而不能只學其『形』。不能看它今天出個模型,明天出個模型,感到非常焦慮。我們要看清它背後整個的規劃,以及圍繞著一條主線、兩條支線所建立起的整個技術體系,這是非常重要的。」姜大昕說到。 攀登 Scaling Law 道路上的「鐵人四項」 就像姜大昕所說,OpenAI 的成功是一環套一環的。這就意味著,你每一步都要走得足夠紮實,後面的路才能走好。所以,在 Step-1 千億引數語言大模型訓練成功後,階躍星辰隨即開展了 Step-2 萬億引數語言大模型的訓練工作。 姜大昕用「鐵人四項」來形容這項工作的難度。所謂的「鐵人四項」,指的是訓練萬億引數模型對於演算法、算力、系統、資料的要求都很高。 首先,在演算法層面,MoE 架構的萬億引數模型究竟怎麼訓練,目前在業界鮮有公開資料可以參考,完全靠演算法團隊和系統團隊緊密結合,一起去摸索。 在算力層面,訓練這個體量的模型需要上萬張 GPU 卡。而且,這些卡要放在一個單一的叢集裡,搭建起一個高效、穩定的系統,這是非常有挑戰性的。 首先是效率方面的挑戰。在訓練過程中,計算、記憶體和網路通訊是三個關鍵要素。為了避免寶貴的計算資源(如 GPU)在資料儲存和網路通訊時處於空閒狀態,系統必須設計成一個流水線,使得這些操作能夠儘可能重疊進行,從而最大化 GPU 的使用效率。這種效率可以透過 Model FLOPs Utilization(MFU)這一指標來衡量,即有效算力輸出。不同的模型架構、網路拓撲結構和最佳化策略都會影響這一指標,考驗著系統設計的功力。 其次是訓練穩定性方面的挑戰。在擁有上萬張 GPU 卡的大型叢集中,不可避免地,有些卡會出故障,就像人群中會有人生病一樣。系統必須能夠自動檢測到故障卡,將其任務隔離並遷移到正常卡上,然後自動同步資料,確保訓練過程不受影響。這種穩定性是系統設計的基礎,但由於涉及的卡數量巨大,系統變得極其複雜。 前段時間,從谷歌出走創業的科學家 Yi Tay 曾發文感慨,創業做大模型比自己之前想象的要難。他意識到在大公司時,由於有專門的系統團隊支援,他感覺不到搭建和維護大型 AI 訓練系統的複雜性和困難。但當自己獨立面對這些挑戰時,他遭遇了許多問題,這些經歷讓他深刻理解了系統搭建的難度(參見《「還是谷歌好」,離職創業一年,我才發現訓練大模型有這麼多坑》)。 姜大昕也仔細地讀了這篇文章,但他的感覺卻是「為什麼他掉的坑我一個都沒碰到過?」後來他轉念一想,這都是因為他背後有一個強大的系統團隊,而這個團隊的負責人朱亦博擁有多次搭建和管理萬卡叢集的經驗。在 Step-2 的訓練過程中,朱亦博帶領階躍團隊突破了 5D 並行、極致視訊記憶體管理、完全自動化運維等關鍵技術,使得叢集的訓練效率和穩定性處於業界領先水平。「如果沒有亦博和他的團隊,我們可能掉過很多次坑了。」姜大昕感慨地說。 訓練萬億引數模型,另一個令人頭疼的問題是資料。在網際網路上,中文高質量資料是極度匱乏的,比如常用的 Common Crawl 資料集中僅有 0.5% 的中文可用資料,訊雜比極低。 階躍星辰的做法是拿全球的語料來彌補中文語料的不足,因為大模型對語種是不敏感的,就像姜大昕所說,「一個知識點,不管你拿英文教它,還是中文教它,它都能學會。」 不過,全球網際網路上有數億個網站,質量好、能夠用來訓練大模型的網站只有不到 100 萬個,怎麼找到這些網站呢?姜大昕說,「這個資訊只有做過搜尋引擎的人才知道。」因為在做搜尋引擎的時候,他們會建一個很大的圖譜,可以透過網站之間的連線關係來判斷網站的權威度和網站的質量。 在創業之前,姜大昕以及另一位創始成員焦斌星都長期致力於搜尋引擎方面的工作(焦斌星曾擔任微軟必應引擎核心搜尋團隊負責人)。他們在微軟研發的必應搜尋引擎已經成為全球第二大搜尋引擎,支援 100 多種語言,服務於全球 200 多個國家和地區。所以,他們知道全球網際網路上高質量語料的分佈是怎樣的。此外,在資料處理 pipeline 上,焦斌星帶領的資料團隊也有豐富的經驗可以參考。 除了這些公開資料,在非公開的行業資料層面,階躍星辰與國內優秀的資料資源實現了深度合作。 所以,總體來看,雖然訓練萬億引數模型困難重重,階躍星辰依然憑藉自己獨特的優勢取得了巨大進展,這體現了階躍的核心技術能力,也說明了公司探索通用人工智慧的決心。 以階躍之力,赴星辰大海 階躍星辰成立於 2023 年 4 月,在過去的一年一直非常低調。在媒體溝通會上,姜大昕解釋了公司名字的來歷:「階躍」取自階躍函式(step function)。他們認為,通用人工智慧技術會讓每個人、每個領域迎來從 0 到 1 躍變的時刻,因此也需要用更堅定的信念去一步一步(step by step)地實現它。 在談到為什麼會有創業這個想法時,姜大昕回憶說,在接觸了 ChatGPT 後,他意識到這將是一個跨時代的變革。但是,在微軟,這個模型對他們來說是一個黑盒子 —— 他們只能透過 API 與之互動,無法獲取模型的內部結構和引數,連 decode 之前的東西都看不到。這種限制意味著,即使發現了模型的問題,他們也沒有辦法改進。 而且,他們的工作不僅涉及模型的構建,還包括將模型應用於實際場景。所以,他們更希望從模型的基礎出發,進行更深入的創新,而不僅僅是編寫提示來使用現有的模型。對於他們這些專注於演算法研究的人來說,通向 AGI 的旅程中,解決 system 2(邏輯分析系統)相關的問題才是真正令人充滿激情和動力的挑戰。 如今,姜大昕已經帶領他的團隊構建起了自己的大模型,自然可以更加自如將其部署到應用層。目前,他們已經上線了兩款面向 C 端使用者的大模型產品 —— 躍問和冒泡鴨 。其中,躍問是 AI 聊天類應用,定位為個人效率助手;冒泡鴨是由劇情和角色組成的 AI 開放世界平臺,滿足娛樂和社交需求。二者均已全面開放使用。
躍問介面。試用地址:https://stepchat.cn/chats/new
冒泡鴨 APP 介面。可在手機應用商店下載。
冒泡鴨對話結果。圖片來自朋友圈分享。 此外,階躍星辰在金融、網路文學、知識服務等領域已與合作伙伴達成深度合作,共同探索麵向 C 端使用者的創新應用。 在經歷了過去一年的「百模大戰」後,大模型創業正在進入一個新的階段,資源、人才的爭奪也變得更加激烈。在階躍星辰身上,我們看到了他們攀登 Scaling Law 的決心和強大的人才、資源配置。這樣的開局讓我們對這家公司的未來充滿期待。