國內外大模型生態發展報告!

公众号-JavaEdge發表於2024-06-22

很多同學只知類似Check GPT或者說對國內的一些比較瞭解,對國外的不太瞭解,所以在這總結。

1 大模型的發展

左表

名稱 引數 特點 釋出時間
GPT-2 15億 英文底模,開源 2019年
Google T5 110億 多工微調, 開源 2019年
GPT-3.5 1750億 人工反饋微調 2022年
Meta OPT 1750億 英文底模, 開源 2022年
LLaMA 70億~650億 最受歡迎的開源模型之一 2023年
GPT-4 1.8萬億 史上最強大模型 2023年
Vicuna-13B 130億 開源聊天機器人 2023年
Falcon 400億 阿聯酋先進技術研究委員會 2023年
Claude 1.3 未公開 Anthropic研發,注重安全和可靠性 2023年
PaLM 2 未公開 Google最新大模型 2023年
Mistral 7B, 13B 強調效能和效率 2023年
GPT-4-turbo 未公開 OpenAI更高效版本 2023年
Claude 2 未公開 改進的上下文理解和任務執行能力 2023年
LLaMA 2 70億, 130億, 700億 Meta開源的改進版本,商用更自由 2023年
Gemini 未公開 Google的多模態AI模型 2023年
Claude 3 未公開 Anthropic的最新版本,包括Opus、Sonnet和Haiku 2024年
GPT-4o 未公開 OpenAI的GPT-4升級版 2024年
Gemini Pro 未公開 Google Gemini的升級版 2024年

右表

名稱 引數 特點 釋出時間
百川智慧 70億 王小川, 開源 2023年
文心一言 2600億 中文語料85% 2023年
通義千問 70億~700億 總體相當GPT-3 2023年
ChatGLM6B 60億 10B以下最強中文開源 2023年
騰訊混元 超千億 騰訊出品多模態 2023年
MOSS 160億 多外掛, 開源 2023年
Aquila 70億~330億 首箇中文資料合規 2023年
PolyLM 130億 對亞洲語言友好 2023年
訊飛星火 未公開 科大訊飛出品,多模態 2023年
ChatGLM2-6B 60億 ChatGLM升級版,更強效能 2023年
天工 未公開 崑崙萬維與奇點智源合作 2023年
360智腦 未公開 360公司出品 2023年
MiniMax 未公開 前百度高管創立 2023年
ChatGLM3 60億,130億 更強的多輪對話能力 2024年
文心一言4.0 未公開 百度升級版,多模態增強 2024年
通義千問2.0 未公開 阿里雲升級版 2024年
騰訊混元2.0 未公開 騰訊升級版 2024年
Google T5 -> GPT-3 -> GLM130B -> LLaMa -> GPT-4 -> Falcon -> GPT-4v

發展角度,LLM最早基本在2017年左右,其實最早所有的LLM都是基於谷歌的Transformer架構設計。2017年穀歌釋出它的T5模型,後續不斷有新的這樣LLM衍生出來。包括GPT-2、GPT-3、GLM-130B以Facebook為代表的這個開源的LaMa,還有後來GPT-4及中東的科研機構開發的這個FanCL及最新GPT4,包括多模態模型。

更多 LLM 官網,請訪問程式設計嚴選網-導航

2 國外與國內大模型

表格左邊主要是國外的一些常見LLM,右邊是國內廠商。

釋出時間看,海外比我們要早些,能夠叫得上的或用的比較多的都是在2023年才開始釋出。

3 引數與模型能力

先看國外的,第一個GPT-2大概15億的引數。

引數是啥?

LLM的所謂引數,代表一個模型的複雜程度,引數越大,也就說它需要的容量空間,它需要的算力也就越大,那相應的能力就越強。

引數越小,它需要的算力就越小,能力相對較弱,能力強弱,主要透過它的回答或提煉問題的能力,就能看出來。

谷歌T5大概有110億的引數,特點就是它可以實現多工的一個微調,它是開源的。GPT主要是OpenAI的,GPT-3.5出來後,市面震驚,因為它的效果非常好,但是我們可以看到它的引數也是非常可怕,達到1750億。所以說它的需要的算力非常多,它就能支援人工反饋的微調。

隨後就是Meta公司即Facebook,就它也出品了,它的模型大概1750億,底模是英文的。

底模是啥?

大模型預訓練時,有個預訓練過程,需要大量語料,如大量用英文材料,那底模就是英文,那它在它基礎上做英文的一些問題回答,效果較好。

LLaMA也叫羊駝,https://www.alpacaml.com/:

目前比較主流的一個開源模型,目前開源裡引數較大,效果較好的,最受歡迎的開源LLM之一。 GPT4最新出,但它最新的引數沒變化,但底模數量會較大。GPT-4我們看到它的引數達到1.8萬億,號稱史上最強。

比如說GPT的底模裡有中文語料,所以它足夠大,涵蓋基本所有網際網路知識,GPT-3.5截止2021年之前網際網路知識,4把知識庫呢更新到2023年。所以它涵蓋的語言種類比較多。

再看右邊國內的。

首先百川智慧,王小川搞的,引數70億,相當於羊駝水平。

百度文心一言就相對比較大,百度搞AI投入還是比較大的,引數2600億,中文語料佔到85%。

阿里通義千問引數在70~700億之間,總體能力相當於GPT-3,國內還是稍差。

GLM-6B大概60億的引數,清華大學的團隊。目前國內或國際100億以下最強中文開源模型,100億引數視窗之下效果最好的目前是它,真的不錯。

騰訊混元,具體引數沒公佈,大概超千億,支援多模態。

多模態啥意思?

不光有文字文字生成,還有影像生成,文到圖圖到文啊等等就是各種模態支援。它的底模或者它的預訓練更復雜,不光可能訓練文字,還訓練圖片,支援多外掛的開源模型。

基本上各有特點,但國內有兩大特點:

  • 時間稍晚,基本到2023年釋出
  • 中文支援相對的都比海外的這些模型好很多

商用角度,開源模型其實不太理想,LaMa不支援商用,但GLM都可商用,包括百川、FanCL都可商用。

4 大模型的生態

百模大戰,千模大戰多模型大戰,就是由OpenAI引爆。

Hugging Face,抱臉,相當於AI界GitHub。很多開源模型可以找到:

可見整個LLM發展生態繁榮。

5 清華團隊在PupilFace的主頁

ChatGLM就是清華團隊的,他們在PupilFace上面的一個主頁。我們可以看到他們的作品。

已建立的LMs(Large Models,大型模型),LLM像ChatGLM、WebGLM 130B等,還有一些相應工具,包括預訓練的這些圖訓練的神經網路。https://huggingface.co/THUDM/chatglm3-6b:

可以看到它的6B(6 billion,60億引數),32K(可能指模型的某種配置或版本),然後包括7B(7 billion,70億引數),13B(13 billion,130億引數)。最強130B(130 billion,1300億引數)。

整個大模型確實非常多,每個模型都有自己的特色。

6 商用許可

大模型名稱 引數 是否可商用
ChatGLM 6B, 1T 可商用
ChatGLM2 6B, 1T 可商用
LLaMA 7B, 13B, 33B, 65B, 1T 不可商用
LLaMA2 7B, 13B, 33B, 65B, 2T 可商用
BLOOM 1B7, 7B1, 176B-MT, 1.5T 可商用
Baichuan 7B, 13B, 1.2T, 1.4T 可商用
Falcon 7B, 40B, 1.5T 可商用
Qwen 7B, 7B-Chat, 2.2T 可商用
Aquila 7B, 7B-Chat 可商用
Mistral 7B, 13B 可商用
Gemma 2B, 7B 可商用
Claude 未公開 不可商用
GPT-4 未公開 不可商用
PaLM 2 未公開 不可商用
Gemini 未公開 不可商用
BERT 110M, 340M 可商用
RoBERTa 125M, 355M 可商用
T5 60M, 220M, 770M, 3B, 11B 可商用
Gopher 280B 不可商用

關注我,緊跟本系列專欄文章,咱們下篇再續!

作者簡介:魔都技術專家,多家大廠後端一線研發經驗,在分散式系統設計、資料平臺架構和AI應用開發等領域都有豐富實踐經驗。

各大技術社群頭部專家博主。具有豐富的引領團隊經驗,深厚業務架構和解決方案的積累。

負責:

  • 中央/分銷預訂系統效能最佳化
  • 活動&優惠券等營銷中臺建設
  • 交易平臺及資料中臺等架構和開發設計
  • 車聯網核心平臺-物聯網連線平臺、大資料平臺架構設計及最佳化
  • LLM應用開發

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考:

  • 程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出!

相關文章