國產開源大模型盤點:ChatGLM-6B 和 MOSS 的應用與創新

我的小熊不見了發表於2023-04-22

ChatGLM-6B

ChatGLM-6B 是一個開源的、支援中英雙語的對話語言模型,基於 General Language Model (GLM) 架構,具有 62 億引數。結合模型量化技術,使用者可以在消費級的顯示卡上進行本地部署(INT4 量化級別下最低只需 6GB 視訊記憶體)。 ChatGLM-6B 使用了和 ChatGPT 相似的技術,針對中文問答和對話進行了最佳化。經過約 1T 識別符號的中英雙語訓練,輔以監督微調、反饋自助、人類反饋強化學習等技術的加持,62 億引數的 ChatGLM-6B 已經能生成相當符合人類偏好的回答。
為了方便下游開發者針對自己的應用場景定製模型,同時實現了基於 P-Tuning v2 的高效引數微調方法 (使用指南) ,INT4 量化級別下最低只需 7GB 視訊記憶體即可啟動微調。

專案地址:https://github.com/THUDM/ChatGLM-6B

image.png

langchain-ChatGLM

langchain-ChatGLM是基於 ChatGLM-6B + langchain 實現的基於本地知識的 ChatGLM 應用。

專案亮點:可以本地上傳知識庫,並且計劃支援聯網搜尋。

專案地址:https://github.com/imClumsyPanda/langchain-ChatGLM

img2

ChatGLM-Efficient-Tuning

基於 PEFT 的高效 ChatGLM-6B 微調。

專案亮點:支援 freeze、ptuning、lora三種微調方法。

專案地址:https://github.com/hiyouga/ChatGLM-Efficient-Tuning/blob/main/README_zh.md

Chinese-LLaMA-Alpaca

該專案是中文LLaMA模型和指令精調的Alpaca大模型。這些模型在原版LLaMA的基礎上擴充了中文詞表並使用了中文資料進行二次預訓練,進一步提升了中文基礎語義理解能力。同時,中文Alpaca模型進一步使用了中文指令資料進行精調,顯著提升了模型對指令的理解和執行能力。

專案地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca

gif3

visual-openllm

基於 ChatGLM + Visual ChatGPT + Stable Diffusion

專案亮點:整合了ChatGLM和Stable Diffusion,支援作圖。

專案地址:https://github.com/visual-openllm/visual-openllm

gif4

以上大模型大都是基於清華大學的ChatGLM-6B來實現的,復旦大學的MOSS也於近日開源。

MOSS

復旦大學開源工具增強會話語言模型。

moss-moon-003-base: MOSS-003基座模型,在高質量中英文語料上自監督預訓練得到,預訓練語料包含約700B單詞,計算量約6.67x10^22^次浮點數運算。

moss-moon-003-sft: 基座模型在約110萬多輪對話資料上微調得到,具有指令遵循能力、多輪對話能力、規避有害請求能力。

moss-moon-003-sft-plugin: 基座模型在約110萬多輪對話資料和約30萬外掛增強的多輪對話資料上微調得到,在moss-moon-003-sft基礎上還具備使用搜尋引擎、文生圖、計算器、解方程等四種外掛的能力。

moss-moon-003-pm: 在基於moss-moon-003-sft收集到的偏好反饋資料上訓練得到的偏好模型,將在近期開源。

moss-moon-003: 在moss-moon-003-sft基礎上經過偏好模型moss-moon-003-pm訓練得到的最終模型,具備更好的事實性和安全性以及更穩定的回覆質量,將在近期開源。

moss-moon-003-plugin: 在moss-moon-003-sft-plugin基礎上經過偏好模型
moss-moon-003-pm訓練得到的最終模型,具備更強的意圖理解能力和外掛使用能力,將在近期開源。

gif4

解方程:
gif4

生成圖片:
gif4

相關文章