大模型的未來在哪?
自2018年穀歌釋出BERT以來,預訓練大模型經過三年的發展,以強大的演算法效果,席捲了NLP為代表的各大AI榜單與測試資料集。2020年OpenAI釋出的NLP大模型GPT-3,實現了千億級資料引數。GPT-3除了具備傳統的NLP能力之外,還可以算術、程式設計、寫小說、寫論文摘要,一時之間成為科技圈中的爆點。到2021年,我們可以看到各大學術機構、科技企業都在打造自己的大模型,並且對其能力邊界、技術路徑進行了極大擴充。
身在科技圈中會有明顯的感受,今年大模型的會議與討論越來越多,預訓練大模型本身的優勢我們在很多新聞中都感受到了。打造大模型並不是一件輕鬆容易的事情,需要耗費大量的資料、算力資源等,大模型的意義是為了讓演算法模型集中化,但是市場中有條件的企業和機構都開始耗費大量資源自研大模型。大模型演算法模型的集中化優勢,經過這些機構對集中資源的分化,又有種煙囪式的割裂。
其實現實可能只需要一個發展到極致化的大模型就足夠大家使用了,沒有必要人手一個。而且預訓練大模型的發展在這樣的模式下也會受到一些影響,而在這個態勢下也有一些趨勢與變化值得討論與關注。
大模型發展模式的卡點
BERT、GPT 等大規模預訓練模型(PTM)近年來取得了巨大成功,成為AI領域的里程碑。因為預訓練大模型的顯著優勢,現在AI社群的共識是採用它作為下游任務的開始,而不是從頭開始訓練資料、建立模型。
隨著產學研各界的深入研究,大模型在AI各界的地位得到不斷加強。一些機構和產業界對大模型的參與到角逐,使得其呈現出一種宣傳炫技般的畫面感受。這樣的發展模式很可能會給行業帶來一些不好的影響:
1.大模型成為一些機構和企業秀肌肉的軍備競賽,大家開始比拼各自引數集數量級。你百億級,我就千億級。資料集本身就有限,標榜自己的資料集越大,也意味著水分比較多,而在真實落地使用的情況方面,也並不不一定理想。算力資源和訓練時間消耗過大,並且也只限於部分行業的部分問題,普適性差。
2.國內預訓練模型的玩家們可用的中文資料集有限,就是我們知道的幾種主流常用資料來源。在有限的資料集裡,大家使用的資料未免重複,而因此研究出來的大模型能力就比較接近。走相同的路徑做類似的事情,有點浪費資源與算力。
3.大模型是否優秀,不僅依賴資料的精度與網路結構,也是對其與行業結合軟硬體協同能力的比拼。單純只強調低頭研發高引數集、強算力模型等的方向,輕視一些與行業的協同二次除錯等問題,就會陷入閉門造車的局面,限制了落地的路,走不遠。
4.一些預訓練大模型經過極致化(資料、模型、算力)的發展後,也有可能面臨小眾、泛用性差的情形,比如一些高校研發的預訓練大模型只能在小眾的學術圈子裡使用,無法工程化使用,最終淪為一次性的模型,浪費大量的資源。
雖然我們看到各種大模型在集中式爆發發展,但其實目前大模型行業還處於初始階段,面臨一些問題與卡點無可避免。行業內人士應該會更加敏感地體察到這些現象,誰也不會想要讓這些荊棘以常態的模式橫亙在發展前路上。大家花費精力激盪腦力,想要發展的共識是打造出行業內唯一的模型。那麼,對於行業來說,究竟什麼樣的大模型才是最好的呢?
究竟什麼是好的大模型?
在這場battle裡,大模型向著規模極致化的方向發展。那麼如何衡量大模型的能力,是一個繞不開的話題。衡量大模型能力的關鍵要素是,引數的規模和與細分行業結合對接的軟硬體協同能力。我們在各種新聞中經常可以看到,機構或者是企業用資料集或者是引數規模,以及跑分來彰顯自己的模型水平。
引數的規模決定了預訓練模型有多大。引數越大一般來說意味著大模型具備更多的能力,泛化性、通用性也更加強。成功的大模型背後,還需要大規模分散式訓練、平行計算、軟硬體協同優化等能力。
腦極體曾在GPT-3最火的時候,參與過一次試驗:用GPT-3寫個文章出來。我們給第三方提供了一些寫作的思路,想要看一下機器寫出來的效果怎麼樣(其實是想看看自己離失業還有多久)。結果得到的反饋是GPT-3在理解能力方面很牛很強,但是讓它去生產一篇稿件,對於它來說還是比較複雜而且困難的一件事情。
另外,排隊等待使用的企業過多,間次使用等待的時間過長,,並且稿件本身也需要好幾天才能完成。看似一個簡單的寫稿需求,對無所不能的GPT-3來說應該是小case,結果無疾而終。存在類似小需求的企業應該還是有很多,而這些需求都需要排隊等待呼叫大量的算力,並且磨幾天才能產出,而花時間花錢結果還存疑。當時行業裡最好的大模型落地都如此艱難,大模型的落地還是有點不理想。
好的大模型不僅僅需要模型、算力等本身效能方面強勁,關鍵也需要看與某垂直行業結合時產品化落地的能力是否實用。落地的大模型需要解決一些行業具體的問題,與行業結合時二次開發、對接的成本儘可能地小,否則它強勢的效能也只是空中樓閣,中看不中用。大模型需要工程落地的能力,從而開啟更多的邊界,讓更多領域和企業來使用。
大模型的未來趨勢
從產業價值的角度來看,預訓練大模型帶來了一系列可能性,讓產學研各界看到了由弱人工智慧走向強人工智慧,走向工業化、整合化智慧化的路徑。在這樣的驅動背景下,大模型也會有一些可預見的趨勢與發展。
1.我們知道事物的發展規律是優勝劣汏,在競爭的角逐中,一些標榜獨特性的小眾模型的泛化能力差,越獨特可能也就意味著越小眾,使用的範圍十分有限,可能會逐漸走向消亡。
2.崛起的大模型不僅僅是泛化性、落地能力強,創新性強、訓練資料規模大,也需要具備不斷生長革新的能力,也就是自我進化、智慧化的能力。大模型的未來需要創新,也需要自我生長,向可持續、可進化的方向發展,架構上的革新會讓模型更加高效。
3.大模型能力的端側化,“晶片化”。將模型的一些運算儲存等能力像晶片一樣固化在一些端側硬體裝置中,在使用的過程中不用在重灌的模型中耗時呼叫算力與資料,可以實現隨時呼叫隨時使用。現下的模型多是重灌大模型,使用的話需要呼叫龐大的算力和執行時間,未來的大模型會逐漸改變這種模式。
4.大模型的標準化與模組化發展。大模型的評估未來會有標準化成熟的體系來衡量,這個體系也會是行業內公認的標準,用這個標準來衡量大模型的優劣而不是現下自賣自誇式的標榜。
目前我們在各大榜單上看到的分數來自於大型的資料集和算力模型,讓開發更加容易,除錯與訓練的週期越來越短。但我們也知道大量的資料餵養出來的模型回報並不是百分百地正確。餵養的資料知識的極大擴充套件也無法保證結果的確定性,這也是大模型最大的弱點,而這也意味著對於大模型的探索需要持續的迭代發展。
預訓練大模型是面向通用智慧最高階的探索,也是AI持續變革的核心發展方向與動力,隨著AI不斷深入產業與各學科領域的過程中,大模型在軍備battle和百家爭鳴,算力、資料、規模都會朝著極致化的方向發展。未來新的預訓練大模型將會與那些計算量巨大的科學領域,比如製藥、腦科學、醫療、生物計算等領域相互結合,帶來巨大的價值。
我們的那些懸而未解的難題,在未來都會有答案,無論最終這個結論正確與否,都能夠為前沿的發展、探索帶來很多靈感與角度,世界的多面體將會被開啟。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2839427/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 前端工程師的未來在哪裡?前端工程師
- 文旅行業的未來在哪裡?行業
- 2020年,未來在哪裡?
- 吃雞遊戲的未來在哪兒?遊戲
- 偶像企劃類遊戲的未來在哪裡?遊戲
- 大模型之外,阿里雲對未來的真正佈局是什麼?大模型阿里
- 為什麼說得多模態者得大模型未來?大模型
- 和數傳媒:區塊鏈的未來在哪裡?區塊鏈
- 擁抱未來:大語言模型解鎖平臺工程的無限可能模型
- 學界 | 讀計算機博士的未來出路在哪裡?計算機
- Picasso:開啟大前端的未來前端
- 未來web前端的六大趨勢,看未來的發展前景!Web前端
- Filecoin新經濟模型的未來充滿期待模型
- AI的未來是一個巨大的模型,還是多個specialized小模型AI模型Zed
- Build 2018大會:C#的未來UIC#
- 阿里開源的32B大模型到底強在哪裡?阿里大模型
- 多方圍剿下,買量市場未來的支點在哪兒?
- OpenAI o1 模型到來後,談談提示詞工程的未來OpenAI模型
- AI的未來不是大模型,也不是端到端:Meta向我們證明了這一點AI大模型
- 多模態AI是醫學的未來,谷歌推出三個新模型,Med-Gemini迎來大升級AI谷歌模型
- IE大學:未來的資料經濟
- 大涼山的新衣,產業AI的未來產業AI
- 拆解全景,解鎖未來——深度分析大模型六大領域及五大應用解決方案大模型
- iPhone賣不動,轉型服務的蘋果未來能在哪裡呢?iPhone蘋果
- 我國大資料未來的發展方向大資料
- 未來最好的大學專業,非大資料莫屬!大資料
- 來外灘大會,論一論大模型的邊界大模型
- 新的一年,來看看大資料與AI的未來展望大資料AI
- 《重返未來1999》,未來的你能撐多久?
- 未來論壇報告:茶葉的未來
- 雲端計算的未來在哪?破解亞馬遜雲科技增長神話亞馬遜
- 語音社交系統的亮點在哪,未來行業發展趨勢如何?行業
- DevOps 的未來dev
- 大資料前景:大資料未來的7個發展方向大資料
- 未來五年的晶片大贏家會是哪些?晶片
- IE大學:未來50年的趨勢報告
- 未來遊戲業的6大發展趨勢遊戲
- 未來七大AI科技趨勢!AI