很多同學只知類似Check GPT或者說對國內的一些比較瞭解,對國外的不太瞭解,所以在這總結。
1 大模型的發展
左表
名稱 | 引數 | 特點 | 釋出時間 |
---|---|---|---|
GPT-2 | 15億 | 英文底模,開源 | 2019年 |
Google T5 | 110億 | 多工微調, 開源 | 2019年 |
GPT-3.5 | 1750億 | 人工反饋微調 | 2022年 |
Meta OPT | 1750億 | 英文底模, 開源 | 2022年 |
LLaMA | 70億~650億 | 最受歡迎的開源模型之一 | 2023年 |
GPT-4 | 1.8萬億 | 史上最強大模型 | 2023年 |
Vicuna-13B | 130億 | 開源聊天機器人 | 2023年 |
Falcon | 400億 | 阿聯酋先進技術研究委員會 | 2023年 |
Claude 1.3 | 未公開 | Anthropic研發,注重安全和可靠性 | 2023年 |
PaLM 2 | 未公開 | Google最新大模型 | 2023年 |
Mistral | 7B, 13B | 強調效能和效率 | 2023年 |
GPT-4-turbo | 未公開 | OpenAI更高效版本 | 2023年 |
Claude 2 | 未公開 | 改進的上下文理解和任務執行能力 | 2023年 |
LLaMA 2 | 70億, 130億, 700億 | Meta開源的改進版本,商用更自由 | 2023年 |
Gemini | 未公開 | Google的多模態AI模型 | 2023年 |
Claude 3 | 未公開 | Anthropic的最新版本,包括Opus、Sonnet和Haiku | 2024年 |
GPT-4o | 未公開 | OpenAI的GPT-4升級版 | 2024年 |
Gemini Pro | 未公開 | Google Gemini的升級版 | 2024年 |
右表
名稱 | 引數 | 特點 | 釋出時間 |
---|---|---|---|
百川智慧 | 70億 | 王小川, 開源 | 2023年 |
文心一言 | 2600億 | 中文語料85% | 2023年 |
通義千問 | 70億~700億 | 總體相當GPT-3 | 2023年 |
ChatGLM6B | 60億 | 10B以下最強中文開源 | 2023年 |
騰訊混元 | 超千億 | 騰訊出品多模態 | 2023年 |
MOSS | 160億 | 多外掛, 開源 | 2023年 |
Aquila | 70億~330億 | 首箇中文資料合規 | 2023年 |
PolyLM | 130億 | 對亞洲語言友好 | 2023年 |
訊飛星火 | 未公開 | 科大訊飛出品,多模態 | 2023年 |
ChatGLM2-6B | 60億 | ChatGLM升級版,更強效能 | 2023年 |
天工 | 未公開 | 崑崙萬維與奇點智源合作 | 2023年 |
360智腦 | 未公開 | 360公司出品 | 2023年 |
MiniMax | 未公開 | 前百度高管創立 | 2023年 |
ChatGLM3 | 60億,130億 | 更強的多輪對話能力 | 2024年 |
文心一言4.0 | 未公開 | 百度升級版,多模態增強 | 2024年 |
通義千問2.0 | 未公開 | 阿里雲升級版 | 2024年 |
騰訊混元2.0 | 未公開 | 騰訊升級版 | 2024年 |
Google T5 -> GPT-3 -> GLM130B -> LLaMa -> GPT-4 -> Falcon -> GPT-4v
發展角度,LLM最早基本在2017年左右,其實最早所有的LLM都是基於谷歌的Transformer架構設計。2017年穀歌釋出它的T5模型,後續不斷有新的這樣LLM衍生出來。包括GPT-2、GPT-3、GLM-130B以Facebook為代表的這個開源的LaMa,還有後來GPT-4及中東的科研機構開發的這個FanCL及最新GPT4,包括多模態模型。
更多 LLM 官網,請訪問程式設計嚴選網-導航:
2 國外與國內大模型
表格左邊主要是國外的一些常見LLM,右邊是國內廠商。
釋出時間看,海外比我們要早些,能夠叫得上的或用的比較多的都是在2023年才開始釋出。
3 引數與模型能力
先看國外的,第一個GPT-2大概15億的引數。
引數是啥?
LLM的所謂引數,代表一個模型的複雜程度,引數越大,也就說它需要的容量空間,它需要的算力也就越大,那相應的能力就越強。
引數越小,它需要的算力就越小,能力相對較弱,能力強弱,主要透過它的回答或提煉問題的能力,就能看出來。
谷歌T5大概有110億的引數,特點就是它可以實現多工的一個微調,它是開源的。GPT主要是OpenAI的,GPT-3.5出來後,市面震驚,因為它的效果非常好,但是我們可以看到它的引數也是非常可怕,達到1750億。所以說它的需要的算力非常多,它就能支援人工反饋的微調。
隨後就是Meta公司即Facebook,就它也出品了,它的模型大概1750億,底模是英文的。
底模是啥?
大模型預訓練時,有個預訓練過程,需要大量語料,如大量用英文材料,那底模就是英文,那它在它基礎上做英文的一些問題回答,效果較好。
LLaMA也叫羊駝,https://www.alpacaml.com/:
目前比較主流的一個開源模型,目前開源裡引數較大,效果較好的,最受歡迎的開源LLM之一。 GPT4最新出,但它最新的引數沒變化,但底模數量會較大。GPT-4我們看到它的引數達到1.8萬億,號稱史上最強。
比如說GPT的底模裡有中文語料,所以它足夠大,涵蓋基本所有網際網路知識,GPT-3.5截止2021年之前網際網路知識,4把知識庫呢更新到2023年。所以它涵蓋的語言種類比較多。
再看右邊國內的。
首先百川智慧,王小川搞的,引數70億,相當於羊駝水平。
百度文心一言就相對比較大,百度搞AI投入還是比較大的,引數2600億,中文語料佔到85%。
阿里通義千問引數在70~700億之間,總體能力相當於GPT-3,國內還是稍差。
GLM-6B大概60億的引數,清華大學的團隊。目前國內或國際100億以下最強中文開源模型,100億引數視窗之下效果最好的目前是它,真的不錯。
騰訊混元,具體引數沒公佈,大概超千億,支援多模態。
多模態啥意思?
不光有文字文字生成,還有影像生成,文到圖圖到文啊等等就是各種模態支援。它的底模或者它的預訓練更復雜,不光可能訓練文字,還訓練圖片,支援多外掛的開源模型。
基本上各有特點,但國內有兩大特點:
- 時間稍晚,基本到2023年釋出
- 中文支援相對的都比海外的這些模型好很多
商用角度,開源模型其實不太理想,LaMa不支援商用,但GLM都可商用,包括百川、FanCL都可商用。
4 大模型的生態
百模大戰,千模大戰多模型大戰,就是由OpenAI引爆。
Hugging Face,抱臉,相當於AI界GitHub。很多開源模型可以找到:
可見整個LLM發展生態繁榮。
5 清華團隊在PupilFace的主頁
ChatGLM就是清華團隊的,他們在PupilFace上面的一個主頁。我們可以看到他們的作品。
已建立的LMs(Large Models,大型模型),LLM像ChatGLM、WebGLM 130B等,還有一些相應工具,包括預訓練的這些圖訓練的神經網路。https://huggingface.co/THUDM/chatglm3-6b:
可以看到它的6B(6 billion,60億引數),32K(可能指模型的某種配置或版本),然後包括7B(7 billion,70億引數),13B(13 billion,130億引數)。最強130B(130 billion,1300億引數)。
整個大模型確實非常多,每個模型都有自己的特色。
6 商用許可
大模型名稱 | 引數 | 是否可商用 |
---|---|---|
ChatGLM | 6B, 1T | 可商用 |
ChatGLM2 | 6B, 1T | 可商用 |
LLaMA | 7B, 13B, 33B, 65B, 1T | 不可商用 |
LLaMA2 | 7B, 13B, 33B, 65B, 2T | 可商用 |
BLOOM | 1B7, 7B1, 176B-MT, 1.5T | 可商用 |
Baichuan | 7B, 13B, 1.2T, 1.4T | 可商用 |
Falcon | 7B, 40B, 1.5T | 可商用 |
Qwen | 7B, 7B-Chat, 2.2T | 可商用 |
Aquila | 7B, 7B-Chat | 可商用 |
Mistral | 7B, 13B | 可商用 |
Gemma | 2B, 7B | 可商用 |
Claude | 未公開 | 不可商用 |
GPT-4 | 未公開 | 不可商用 |
PaLM 2 | 未公開 | 不可商用 |
Gemini | 未公開 | 不可商用 |
BERT | 110M, 340M | 可商用 |
RoBERTa | 125M, 355M | 可商用 |
T5 | 60M, 220M, 770M, 3B, 11B | 可商用 |
Gopher | 280B | 不可商用 |
關注我,緊跟本系列專欄文章,咱們下篇再續!
作者簡介:魔都技術專家,多家大廠後端一線研發經驗,在分散式系統設計、資料平臺架構和AI應用開發等領域都有豐富實踐經驗。
各大技術社群頭部專家博主。具有豐富的引領團隊經驗,深厚業務架構和解決方案的積累。
負責:
- 中央/分銷預訂系統效能最佳化
- 活動&優惠券等營銷中臺建設
- 交易平臺及資料中臺等架構和開發設計
- 車聯網核心平臺-物聯網連線平臺、大資料平臺架構設計及最佳化
- LLM應用開發
目前主攻降低軟體複雜性設計、構建高可用系統方向。
參考:
- 程式設計嚴選網
本文由部落格一文多發平臺 OpenWrite 釋出!