AI大模型的白堊紀
美好的長假即將過去,我們又該忙起來了。在AI領域,這兩年最忙的一項基礎技術應該非大模型莫屬。
隨著最近AI繪畫、AI生成影片等能力不斷重新整理大眾對AI技術邊界的認知,站在AI創作家們背後的大模型的地位也跟著水漲船高。轟轟烈烈的“煉大模型”運動似乎來到了豐收時節。
但在大模型愈發火爆的同時,我們不難看到一個問題:預訓練大模型雖然在眾多領域都表現出了良好的應用效果,但這些效果所產生的商業價值,卻很難與大模型的訓練成本、基礎設施投入成本畫上等號。
事實上,表面光鮮的大模型正在經歷一個有些艱難的轉型階段:大模型不斷表現出的“神奇”效果,引發了資本、產業、學術界的巨大關注。隨著一個又一個大模型被訓練完成,推向市場,卻會發現大模型的應用場景與商業價值雖然有,但並不充沛。如何從“煉大模型”,走向“用大模型”,正在成為關鍵考驗。尤其值得注意的是,中國AI行業對大模型的投資、建設更加激進,那麼大模型的應用轉型考驗也將更加顯著、先覺地浮現於中國市場。
AI預訓練大模型在目前階段的境況,讓我想到一個詞:白堊紀。
白堊紀是地質年代中,中生代的最後一個紀元。這時候全球開始變暖,大陸架結構開始定型。恐龍依舊統治著世界,但哺乳動物已經開始活躍。
大模型似乎也處在這樣一個階段裡。被BERT、GPT-3夯定的大模型思路依舊籠罩在AI產業頭頂。但如何讓大模型走向新的應用紀元,已經成為一個非常熱切,同時略帶迷茫的必答題。
新物種開始出現,老物種依舊佔據主流
在討論大模型的轉型之前,我們還是需要用一點篇幅回溯一下大模型的發展思路與應用邏輯。
所謂的預訓練大模型,是指在大規模寬泛資料上進行訓練的基礎模型。它抓住了深度學習演算法資料越多模型魯棒性越強的基礎特點,對模型進行暴力地“資料投餵”。經過大規模資料的預訓練後,模型可以適應更多種類、更為複雜的下游任務,從而最終獲得更好的智慧體驗。
大規模預訓練模型,其實並不是一種技術路徑上的創新,而是更接近把握技術特徵之後的工程創新。大模型之路被廣泛認可,開始於谷歌在2018年10躍釋出BERT。它利用BooksCorpus和維基百科的大規模資料進行模型訓練,在11個下游任務上重新整理了當時的業界紀錄。
我們可以將大規模預訓練模型理解為一種“預製菜”。既然使用者自己烹飪的難度太高,費工費火,那就不妨由商家先行預製。使用者將菜買回後加熱一下,加入自己喜歡的調料就能上桌食用。大模型的思路也是如此,它透過上游進行模型預訓練,下游進行任務微調的方式來使更多產業能給應用到效果好、質量高的AI模型。
而經過幾年的發展,大模型如今已經來到了一個新舊交替的臨界點。這裡的新舊交替可以分為兩個層面進行理解。首先大模型本身不斷進行技術層面的革新。我們知道,業界最具典型性,也最為出圈的大模型OpenAI在2020年5月釋出的GPT-3。這一大模型具有1750億引數,在非常多文字生成類任務上有著出眾表現。而無論是BERT還是GPT-3,都是自然語言處理領域的大模型。而在GPT-3之後,大模型一方面在模型引數上不斷提升,同時也在技術上進行迭代。比如機器視覺大模型已經成為行業的新主流,同時多模態大模型與行業知識緊密結合的大模型開始出現。推動大模型的能力覆蓋從語言走向視覺,繼而走向更復雜的綜合任務。
另一個層面的大模型新舊交替,體現在產業側對大模型應用的呼喚上。隨著幾年時間過去,“我們必須趕快有一個大模型”的熱情開始消退;轉而產生了“我們確實有大模型,然後呢?”這樣的應用焦慮。尤其對於中國市場來說更是如此。在美國AI界,大模型一直都是少數科技巨頭、學術組織在做,其中很多大模型的基礎定位就是AI技術投資的一部分。但在中國則不同,懷揣著對技術競爭的重視,大量網際網路、雲端計算企業都加入了大模型的構建競賽,這些大模型必須找到有效的商業出口才能收回投資。同時,也有大量科研機構、院校加入其中。於是我們可以在中國看到雨後春筍般釋出的大模型,這樣做的優勢是中國AI在大模型數量上遙遙領先,同時,也帶來了如此多的大模型專案應該要如何消化和使用的問題。
目前階段,大模型產業的特徵是那些直接對標GPT-3的大模型專案依舊佔據主流,或者說並沒有給出太多有說服力的超越價值。同時,新的大模型技術思路與產業轉型思路也已經開始出現。這正是白堊紀的特點:恐龍和哺乳動物共處一地,而新生物種正期待著更多變化到來。
大模型的野蠻生長,已經陷入某種枯竭
幾年來,煉大模型成了AI領域最熱門,同時也最能引起輿論、資本關注的一件事。伴隨著大量大模型專案的快速上馬,我們很難判斷其中有哪些是抱著“競爭對手在做,所以我也要做”的網際網路心態來推動,又有哪些專案是為了與新基建、科技舉國體制等熱門概念掛靠火速上線。
整體來看,跑馬圈地式的大模型產業發展,為整個AI領域提供了一種積極昂揚的氛圍。推動大模型與各個行業、各科研領域結合變得比較輕鬆。與此同時,我們也很容易將大模型與更多AI技術,甚至VR、元宇宙、區塊鏈等同樣被稱為風口的技術進行類比,並且發現大模型的發展軌跡,也有著諸多“野蠻生長”的痕跡。
其實從應用角度看,大模型就像雲端計算一樣,是一種將產業上游投入進行收緊的集約化操作。一般來說,企業應用AI有幾種方案。最簡單的一種是直接接入具有AI能力的標準化API,這種模式只能提供簡單的AI能力,無法覆蓋複雜的智慧化需求;第二種是整體定製AI解決方案,這種方案需要產生高額的定製費用與專家成本,是最不經濟划算的一種;第三種是自己進行AI開發,這種最為貼近企業真實需求,但會導致開發出的模型不夠標準化,與業界領先水平具有差距,並且也要求企業具備AI開發經驗與相關組織架構。
大模型的出現,可以說是在幾種方案之間尋找平衡點。透過大規模預訓練+微調的模式,若干企業與行業可以共享、重複應用大模型。這樣企業既用到了高水準的AI能力,同時也避免了過重的開發成本與建設成本,也就是所謂的推動AI進入工業生產時代,拋棄作坊式的AI開發。
然而我們能夠發現,這種邏輯下最終一定會導致大模型數量較少,而下游應用非常豐富的產業格局。在目前階段,情況恰恰相反。下游的大模型應用處在方興未艾的階段,相關企業與解決方案並不斷。反而上游的大模型專案層出不窮,並且展現出了一定程度上的同質化。這種野蠻生長,一般來說包含著幾種潛在問題:
1.過分聚焦大模型引數和資料集測試結果。
1700億引數的GPT-3,將大模型正式拉到了千億引數規模。隨後大模型的引數比拼不斷升級,很快我們就見到了萬億引數規模的大模型。追求大模型的引數巨大化,曾經一度成為AI領域的主流,隨後也引發了相當多的反思。一味追逐模型體積大、訓練資料規模大,會導致模型很難在現實場景中進行部署,並且低質量的訓練資料過多,很多時候會導致反向效果出現。
大模型領域另一個問題,是追逐在某項資料集測試中重新整理紀錄。以標準化資料集評判大模型能力當然無可厚非。但很多時候資料集測試是有訣竅的,可以進行針對性調優。一味關注測試結果,很可能導致大模型的實際應用效果不足。
2.技術創新過分“個性化”。
由於大模型領域的競爭激烈,並且工程路線其實比較單一,為了標明自己的大模型具有差異化,業界開始興起了大模型的“微創新”熱潮。一般做法是,提出自己是業界首個某某技術上的大模型。但這項技術是否具有說服力,是否有足夠的實際應用價值,則可能要打上一些問號。而隨著大家都是首個某某大模型,大模型的定義越來越複雜,評判標尺也越來越模糊。下游使用者選擇大模型的難度也隨之加大。一定要強調自己是“首個”,導致大模型陷入了混亂的創新局面。
3.打著國產化的名號,進行大量重複投資。
業界另一項關於大模型的問題,是隨著自主可控與國產化替代成為趨勢,相關企業與科研機構開始大量進行重複的大模型投資。大模型國產化當然是合理且必要的。但不同企業、科研機構與不同專案、不同地區政策之間合作,容易造成大模型國產化專案處於較低水平且重複建設的發展模式中,反而降低了國產化的最終效果。
在種子問題之下,大模型的野蠻生長雖然並未結束,但已經顯露出了某種枯竭。推動大模型從引數為中心向應用為中心轉變,是目前階段的核心問題。
大模型轉型,呈現出兩個思路
無論是稱作“煉大模型”,還是大模型的野蠻生長,可以看到中國AI大模型的第一階段發展處於一種飽和態勢中。雖然可能產生各種各樣的浪費與重複投資,但確實為整個產業長期發展打下了堅實基礎。
這一點最直接的體現,在於目前中國AI產業中與大模型發展相適配的基礎設施已經非常完善。這一優勢是此前很多技術,乃至深度學習技術剛剛興起時都不具備的。IDC釋出的《Market Glance:中國AI大模型市場概覽,2022》報告提出,大模型作為人工智慧融合產業級實踐的必然形式,目前底層支撐服務基本完善,多型別晶片持續迭代,圍繞訓練能力、核心運算元庫、上層軟體平臺深入佈局最佳化。
底層基礎支柱與配套設施的完善,讓大模型走向應用更加順遂。在今天我們可以看到,大模型轉型應用為中心,主要呈現出兩個發展思路。
1.擁抱AIGC,與歐美對齊的大模型發展思路。
從GPT-3出圈的自動協作,到近來火爆的AI作畫,再到谷歌與Meta最近紛紛押注的AI生成影片,這項能力都可以歸納為AIGC(AI-Generated Content),即AI生成內容。
AIGC能夠產生優質、複雜,甚至以假亂真的內容,背後的“腦力”普遍來自大模型的支撐。因此在大模型亟待與商用價值接駁的時間段,AIGC也就構成了最直接,最清晰的商業化路徑。但在目前階段,AIGC的商業化潛力還有待深耕。應用範圍最廣的AIGC能力應該就是AI作畫,但其本身面向的常態化使用者更多是插畫師、設計師、自媒體,大量C端使用者都是本著嚐鮮的心態試試看,其最終能夠啟用多大的商業價值尚不明確。一般來說,AIGC中大模型扮演著雙重角色,一種是直接為大模型所屬企業的軟體提供支撐,最終按需求次數或積分完成商業轉化;另一種是賦能其他軟體開發者,透過模型使用或者帶動雲端計算、雲端儲存用量來完成商業價值。無論哪種形式,將AIGC從小眾需求變成大眾需求,同時進一步提升AIGC的商業空間都是當務之急。
另一個角度看,AIGC也是谷歌、Meta等歐美科技巨頭大規模投入的領域,因此國內網際網路與AI企業是有發展參照物的。這一點當然帶來了很多競爭,但也將確保發展路線處在中國科技企業比較熟悉的發展節奏當中。
2.擴充大模型與行業智慧化、科學計算的結合空間,中國大模型的自主探索。
就像AI技術本身一樣,中國產學政各界對大模型的深層期待是啟用行業智慧化價值,與中國經濟整體應用空間結合,甚至在中國啟用第四次工業革命。而這條路則是完全新穎、缺乏參照物的大模型發展可能性。其最大的問題在於,經過多年的發展,產業應用AI依舊難以解決成本過高、難以規模化複雜的問題,大模型的成本更加高昂,能否逃出AI的成本效益陷阱也變得更加複雜。而且將大模型與具體行業、具體科研領域結合,雖然在歐美也有嘗試探索,但中國已經依靠豐富的產業需求與全社會的數字化熱情走到了前列。如何在無人區啟用大模型的長期價值,既是中國AI的機遇,也是嚴苛挑戰。
在目前階段,我們能看到一些AI廠商已經推出了行業大模型,比如金融大模型、能源大模型等等。也有多個領域與大模型進行了跨界合作,比如中國商飛聯合科技廠商,釋出了應用於大飛機測試的流體模擬大模型、西安交大相關團隊應用大模型在超級抗藥菌領域取得突破等等。
中國AI大模型,已經在跨模態搜尋、自動駕駛、數字人、生物醫療、材料化學、數學能領域進行了廣泛探索。但這些探索普遍處在跨領域合作與案例打造的階段,舉例堅實的商業化價值還有不短的路要走。尤其在如何攤薄大模型成本,推動規模化應用方面還有非常多的挑戰。
不管怎麼樣,大模型走向產業,走向商業化,已經從“等等再說”變成了“時不我待”。不適應新的變化,很可能無法走向更遠。
在清醒與未知中走向新生代
6500萬年前,白堊紀正式結束,地球迎來了最新的地質時代:新生代。隨著恐龍滅絕,靈長類覺醒,整個地球的故事開始呈現出新的樣貌。
在今天,我們或許也會疑惑。如今大模型的發展成果、基礎設施建設、技術路線探索,究竟有多少能留到下一個階段呢?肯定是會有的,但大機率並不多。
我們必須清醒地認識到,大量大模型終歸會喪失產業空間。就像其他計算、儲存、AI基礎設施一樣,大模型到最後也只能留下被頻繁使用,形成基礎設施的極少數。轉型必然帶來新的投資與建設熱潮興起,以及傳統熱潮的消退。當產學各界不需要如火如荼般炮製大模型的時候,那些為此打造的算力、網路、開發平臺基礎設施應該何去何從?似乎也是一個需要提前思考的變數。
此外,我們還需要意識到大模型的前路不是一帆風順的。大模型與行業融合,是一條根植中國經濟與社會特性,並且蘊藏著極大價值可能性的新路。但經過多年發展,我們會發現所有AI問題到最後都是成本問題。大模型能否掏出AI“有用,但過貴”的成本怪圈,能不能為IT、雲端計算、網際網路廠商帶來足夠的價值定位?這些問題依舊缺乏清晰的答案。
所以,大模型的白堊紀依舊沒有結束。但我們也知道拼引數、大量重複建設的大模型發展階段終會過去,而考驗在那時或許才剛剛開始。
很多人認為,大模型是深度學習2.0,是AI避免陷入第三次寒冬的諾亞方舟。它被寄託了太多期待。
在新的AI火苗被點燃前,大模型還將在很長時間裡難以替代。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2917305/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 應書嶺英雄互娛五週年致辭:從寒武紀穿越白堊紀
- Ai qwen大模型本地部署AI大模型
- 大模型對AI研究有害?大模型AI
- 一鍵部署本地AI大模型AI大模型
- Springboot --- 使用國內的 AI 大模型 對話Spring BootAI大模型
- 有趣的大模型之我見 | Llama AI Model大模型AI
- AI三重問:什麼是AI?什麼是AI模型?什麼是AI大模型?AI大模型
- Spring AI(使用Ollama大模型進行AI驗證)SpringAI大模型
- AI 大模型輔助測試提效的思考AI大模型
- 大語言模型的應用探索—AI Agent初探!模型AI
- 基於 AI 大模型的精準測試分享AI大模型
- AI大模型會如何顛覆手機AI大模型
- Spring AI與大模型Ollama如何整合整合?SpringAI大模型
- 當「軟體研發」遇上 AI 大模型AI大模型
- AI大模型已經出現不可預測的能力AI大模型
- 璞華AI大模型應用的探索之路:從AI大模型開發與運營平臺到應用寶庫的最佳實踐AI大模型
- AI大模型的潛在風險,如何做好管控?AI大模型
- 智啟新篇 | 您的專屬 AI 大模型解決方案!AI大模型
- PODsys:大模型AI算力平臺部署的開源“神器”大模型AI
- PODsys:大模型AI算力平臺部署的開源"神器"大模型AI
- 大模型時代的AI之變與開發之根大模型AI
- 大模型綜述來了!一文帶你理清全球AI巨頭的大模型進化史大模型AI
- 無聲的AI:昇騰AI如何用大模型破解手語學習的難題?AI大模型
- AI大模型實現圖片OCR識別AI大模型
- AI大模型在醫院門診應用AI大模型
- ollama搭建本地ai大模型並應用呼叫AI大模型
- 小林同學智慧AI大模型語音助手AI大模型
- 推送!10大主流AI模型適用盤點AI模型
- 新火種AI | 馬斯克的AI大模型來了!其他AI不能回答的問題,它能回答嗎?AI馬斯克大模型
- 各種AI模型拿來就能用!五大深度學習模型庫大盤點AI模型深度學習
- 大模型時代究竟需要怎樣的 AI 資料庫?大模型AI資料庫
- ACL 2024 Oral | 大模型也會被忽悠?揭秘AI的信念之旅大模型AI
- 基於大模型的智慧體徹底顛覆AI應用大模型智慧體AI
- 大模型的發展,正在加速企業構建AI中臺大模型AI
- AI 大模型輔助測試全流程提效AI大模型
- AI在用 | 爆改工位文案,大模型也瘋狂AI大模型
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 大模型與生成式AI有本質區別大模型AI