告別微軟,姜大昕帶領這支精英團隊攀登Scaling Law,萬億引數模型已有預覽版
机器之心發表於2024-04-01
攀登 Scaling Law,打造萬億引數大模型,前微軟 NLP 大牛姜大昕披露創業路線圖。
前段時間,OpenAI 科學家 Jason Wei 的一份作息時間表引發了廣泛關注。表中有很多讓人看了會心一笑的梗,比如「9 點 45:背誦 OpenAI 章程,向最最佳化的神禱告,學習《苦澀的教訓》」「10 點用 Google Meet 開會,討論怎麼在更多資料上訓練更大的模型」「11 點寫程式碼,用來在更多資料上訓練更大的模型」「1 點:實操,在更多資料上訓練更大的模型」「4 點:對用更多資料訓練的更大的模型進行提示工程」……在短短的十幾行字中,「在更多資料上訓練更大的模型」出現了四次,而且《苦澀的教訓》也毫不意外地早早出場。對於一家信仰 Scaling Law 並因此而取得巨大成功的公司來說,這些表述可能不僅僅是在玩梗。在公司官網公佈的核心價值觀裡,OpenAI 寫到,「我們相信 scale(規模)—— 在我們的模型、我們的系統、我們自己、我們的流程和我們的抱負中 —— 是有魔力的。如果對此產生了懷疑,那就擴大 scale。」多年來,依靠對於自身技術路線的充分自信和堅持,OpenAI 一路推高 GPT 系列模型的引數。外界推測,GPT-4 的規模可能是 GPT-3 的 10 倍以上,有約 1.8 萬億個引數,而效果的提升也是顯而易見的。因此,在追逐 AGI 的道路上,越來越多的公司也開始相信 Scaling Law,從千億引數模型向萬億引數模型進發。然而,萬億引數模型對於算力、資料的海量需求也註定了,這不會是一場「百模大戰」,而是少數一些玩家才能參與的角逐。就像前微軟全球副總裁、如今的階躍星辰創始人姜大昕所說,「GPT-3.5 會是一個分水嶺,在超過 GPT-3.5 之後,可能只有極少數的公司會繼續攀登 Scaling Law。在算力、系統、資料和演算法等各個方面,萬億引數模型的難度都上升了幾十倍。如果這裡面有任何一個短板,Scaling Law 都很難攀登上去。」作為一位大模型領域的創業者,這番話其實也道出了姜大昕創業以來的一些體會。目前,他帶領的階躍星辰已經做出了超過 GPT-3.5 的千億引數模型 Step-1 和比肩 GPT-4V 的多模態大模型 Step-1V,甚至正在打造的萬億引數 MoE 語言大模型 Step-2 也有了預覽版。在姜大昕看來,他們的路徑是非常清晰的,就是沿著「單模→多模→具身智慧→世界模型」的路線一步步往下走。打造萬億引數(甚至更大的)模型是其中必要的一環,在此基礎上,他們還將推進多模態理解與生成的融合與統一。上述模型都是他們在前進道路上取得的階段性成果,其終極目標指向 AGI,Scaling Law 貫穿始終。姜大昕展示 AGI 技術路線圖。姜大昕是自然語言處理領域的全球知名專家,曾任微軟全球副總裁併領導必應搜尋引擎的研發工作。當然,樹立這樣的目標是需要底氣的。對於姜大昕來說,這種底氣既來自他對 AGI 技術路線的洞察,也來自他背後強大的技術團隊。在最近的一次媒體溝通會中,姜大昕首次與外界分享了他對於大模型技術路線的思考,以及他們能打造出萬億引數大模型和優秀的多模態大模型的背後原因。在姜大昕看來,在通往 AGI 的路上,大模型的演進會經歷三個階段。在第一個階段,也就是早期階段,語言、視覺、聲音等各個模態是獨立發展的,每個模態的模型專注於學習和表徵其特定模態的特點。在第二個階段,即我們當前所處的階段,不同的模態、任務會走向融合。也就是說,它不僅要求語言、視覺、聲音等各個模態實現融合,還要將多模態的理解和生成能力統一起來,這是通往 AGI 的必經之路。在第三個階段,已經實現多模統一的大模型將和機器人充分結合,去主動探索物理世界,然後逐步演變成世界模型,進而實現 AGI。「從一開始我們的佈局就是沿著這麼一條路往前走的。」姜大昕說。基於這一路線,他們在過去的一年裡打造了 Step 系列大模型。其中,Step-1 在邏輯推理、中文知識、英文知識、數學、程式碼方面的效能全面超過 GPT-3.5;Step-1V 在中國權威的大型模型評估平臺「司南」(OpenCompass)多模態模型評測榜單中位列第一,效能比肩 GPT-4V。其實,在姜大昕看來,OpenAI 也是沿著這條路在走的。最近一段時間,OpenAI 的動作有些讓人眼花繚亂,先是推出了一個名叫 DALL・E 3 的模型,春節的時候又扔了個炸彈 ——Sora。前幾天,他們又投資了一個名叫 Figure 的機器人專案。此外,他們內部還不斷有訊息傳出,比如神秘的 Q * 計劃、7 萬億的晶片計劃、今年可能釋出 GPT-5 或 GPT-4.5…… 這些訊息難辨真偽,引發了一連串的疑問:OpenAI 是不是在下一盤大棋?他們這些雜亂無章的動作背後有沒有一個統一的邏輯?我們應該怎麼解讀這些動作背後的真實意圖? 在姜大昕看來,OpenAI 的這些動作其實一點也不亂,反而非常符合預期,因為這家公司其實也一直在沿著上述路線推進他們的 AGI 計劃:GPT-4 是他們在第一階段的代表(單模態),GPT-4V 和 Sora 則是第二階段的代表(多模態)。根據這一路線推斷,Sora 的出現有其必然性。從技術報告中披露的內容可知,Sora 的訓練資料(影像、影片)用到了 OpenAI 的內部工具(很可能是 GPT-4V)進行標註,這點非常重要,提高了模型遵循 prompt 的能力和影片的質量。此外,OpenAI 還會用 GPT 來擴充使用者的描述。「我們看到 OpenAI 是一環扣一環的,它能做出 Sora 是因為它有 GPT-4V,它有 GPT-4V 是因為它有 GPT-4。當我們看清了這樣一個發展歷程之後,很多問題就很容易理解了,比如為什麼 Sora 會出現在這樣一個時間段,為什麼它可以把影片做到 1 分鐘。沿著這條路線,OpenAI 已經形成了自己的科研和工程體系,甚至能夠做到左腳踩右腳。」姜大昕解釋說。但作為一箇中間狀態,Sora 顯然還不完美。比如在一個老師寫板書的例子中,Sora 可以掌握「老師用手拿粉筆寫字、手的運動趨勢、粉筆和黑板的接觸留下印記」等生成,但卻不擅長「板書的內容、老師接下來會寫什麼」等需要推理能力的生成,這需要語言模型的預測。姜大昕認為,之所以出現這種情況,是因為在現階段,多模態理解和生成的任務是分開來進行的(分成了兩條支線),造成的後果是理解模型的理解能力強,但是生成能力弱;生成模型的生成能力強,但理解能力弱。要解決這個問題,就要實現多模態理解和生成的統一。這是「通向 AGI 的必經之路」,也是階躍星辰現在主攻的方向。目前,階躍星辰已經在多模態的理解方面取得了顯著進展。他們的 Step-1V 多模理解能力突出,可以精準描述和理解影像中的文字、資料、圖表等資訊,並根據影像資訊實現內容創作、邏輯推理、資料分析等多項任務。這為後續的多模態生成以及多模態理解與生成的統一打下了一個良好的基礎。「我們內部說,學習 OpenAI 的時候,要學其『神』,而不能只學其『形』。不能看它今天出個模型,明天出個模型,感到非常焦慮。我們要看清它背後整個的規劃,以及圍繞著一條主線、兩條支線所建立起的整個技術體系,這是非常重要的。」姜大昕說到。攀登 Scaling Law 道路上的「鐵人四項」就像姜大昕所說,OpenAI 的成功是一環套一環的。這就意味著,你每一步都要走得足夠紮實,後面的路才能走好。所以,在 Step-1 千億引數語言大模型訓練成功後,階躍星辰隨即開展了 Step-2 萬億引數語言大模型的訓練工作。姜大昕用「鐵人四項」來形容這項工作的難度。所謂的「鐵人四項」,指的是訓練萬億引數模型對於演算法、算力、系統、資料的要求都很高。首先,在演算法層面,MoE 架構的萬億引數模型究竟怎麼訓練,目前在業界鮮有公開資料可以參考,完全靠演算法團隊和系統團隊緊密結合,一起去摸索。在算力層面,訓練這個體量的模型需要上萬張 GPU 卡。而且,這些卡要放在一個單一的叢集裡,搭建起一個高效、穩定的系統,這是非常有挑戰性的。首先是效率方面的挑戰。在訓練過程中,計算、記憶體和網路通訊是三個關鍵要素。為了避免寶貴的計算資源(如 GPU)在資料儲存和網路通訊時處於空閒狀態,系統必須設計成一個流水線,使得這些操作能夠儘可能重疊進行,從而最大化 GPU 的使用效率。這種效率可以透過 Model FLOPs Utilization(MFU)這一指標來衡量,即有效算力輸出。不同的模型架構、網路拓撲結構和最佳化策略都會影響這一指標,考驗著系統設計的功力。其次是訓練穩定性方面的挑戰。在擁有上萬張 GPU 卡的大型叢集中,不可避免地,有些卡會出故障,就像人群中會有人生病一樣。系統必須能夠自動檢測到故障卡,將其任務隔離並遷移到正常卡上,然後自動同步資料,確保訓練過程不受影響。這種穩定性是系統設計的基礎,但由於涉及的卡數量巨大,系統變得極其複雜。前段時間,從谷歌出走創業的科學家 Yi Tay 曾發文感慨,創業做大模型比自己之前想象的要難。他意識到在大公司時,由於有專門的系統團隊支援,他感覺不到搭建和維護大型 AI 訓練系統的複雜性和困難。但當自己獨立面對這些挑戰時,他遭遇了許多問題,這些經歷讓他深刻理解了系統搭建的難度(參見《「還是谷歌好」,離職創業一年,我才發現訓練大模型有這麼多坑》)。姜大昕也仔細地讀了這篇文章,但他的感覺卻是「為什麼他掉的坑我一個都沒碰到過?」後來他轉念一想,這都是因為他背後有一個強大的系統團隊,而這個團隊的負責人朱亦博擁有多次搭建和管理萬卡叢集的經驗。在 Step-2 的訓練過程中,朱亦博帶領階躍團隊突破了 5D 並行、極致視訊記憶體管理、完全自動化運維等關鍵技術,使得叢集的訓練效率和穩定性處於業界領先水平。「如果沒有亦博和他的團隊,我們可能掉過很多次坑了。」姜大昕感慨地說。訓練萬億引數模型,另一個令人頭疼的問題是資料。在網際網路上,中文高質量資料是極度匱乏的,比如常用的 Common Crawl 資料集中僅有 0.5% 的中文可用資料,訊雜比極低。階躍星辰的做法是拿全球的語料來彌補中文語料的不足,因為大模型對語種是不敏感的,就像姜大昕所說,「一個知識點,不管你拿英文教它,還是中文教它,它都能學會。」不過,全球網際網路上有數億個網站,質量好、能夠用來訓練大模型的網站只有不到 100 萬個,怎麼找到這些網站呢?姜大昕說,「這個資訊只有做過搜尋引擎的人才知道。」因為在做搜尋引擎的時候,他們會建一個很大的圖譜,可以透過網站之間的連線關係來判斷網站的權威度和網站的質量。在創業之前,姜大昕以及另一位創始成員焦斌星都長期致力於搜尋引擎方面的工作(焦斌星曾擔任微軟必應引擎核心搜尋團隊負責人)。他們在微軟研發的必應搜尋引擎已經成為全球第二大搜尋引擎,支援 100 多種語言,服務於全球 200 多個國家和地區。所以,他們知道全球網際網路上高質量語料的分佈是怎樣的。此外,在資料處理 pipeline 上,焦斌星帶領的資料團隊也有豐富的經驗可以參考。除了這些公開資料,在非公開的行業資料層面,階躍星辰與國內優秀的資料資源實現了深度合作。所以,總體來看,雖然訓練萬億引數模型困難重重,階躍星辰依然憑藉自己獨特的優勢取得了巨大進展,這體現了階躍的核心技術能力,也說明了公司探索通用人工智慧的決心。階躍星辰成立於 2023 年 4 月,在過去的一年一直非常低調。在媒體溝通會上,姜大昕解釋了公司名字的來歷:「階躍」取自階躍函式(step function)。他們認為,通用人工智慧技術會讓每個人、每個領域迎來從 0 到 1 躍變的時刻,因此也需要用更堅定的信念去一步一步(step by step)地實現它。在談到為什麼會有創業這個想法時,姜大昕回憶說,在接觸了 ChatGPT 後,他意識到這將是一個跨時代的變革。但是,在微軟,這個模型對他們來說是一個黑盒子 —— 他們只能透過 API 與之互動,無法獲取模型的內部結構和引數,連 decode 之前的東西都看不到。這種限制意味著,即使發現了模型的問題,他們也沒有辦法改進。而且,他們的工作不僅涉及模型的構建,還包括將模型應用於實際場景。所以,他們更希望從模型的基礎出發,進行更深入的創新,而不僅僅是編寫提示來使用現有的模型。對於他們這些專注於演算法研究的人來說,通向 AGI 的旅程中,解決 system 2(邏輯分析系統)相關的問題才是真正令人充滿激情和動力的挑戰。如今,姜大昕已經帶領他的團隊構建起了自己的大模型,自然可以更加自如將其部署到應用層。目前,他們已經上線了兩款面向 C 端使用者的大模型產品 —— 躍問和冒泡鴨 。其中,躍問是 AI 聊天類應用,定位為個人效率助手;冒泡鴨是由劇情和角色組成的 AI 開放世界平臺,滿足娛樂和社交需求。二者均已全面開放使用。躍問介面。試用地址:https://stepchat.cn/chats/new此外,階躍星辰在金融、網路文學、知識服務等領域已與合作伙伴達成深度合作,共同探索麵向 C 端使用者的創新應用。在經歷了過去一年的「百模大戰」後,大模型創業正在進入一個新的階段,資源、人才的爭奪也變得更加激烈。在階躍星辰身上,我們看到了他們攀登 Scaling Law 的決心和強大的人才、資源配置。這樣的開局讓我們對這家公司的未來充滿期待。