無所不談,百無禁忌,Win11本地部署無內容審查中文大語言模型CausalLM-14B

刘悦的技术博客發表於2024-02-28

原文網址 : https://www.cnblogs.com/v3ucn/p/18041839

目前流行的開源大語言模型大抵都會有內容審查機制，這並非是新鮮事，因為之前chat-gpt就曾經被“玩”壞過，如果沒有內容審查，惡意使用者可能透過精心設計的輸入（prompt）來操縱LLM執行不當行為。內容審查可以幫助識別和過濾這些潛在的攻擊，確保LLM按照既定的安全策略和道德標準執行。

但我們今天討論的是無內容審查機制的大模型，在中文領域公開的模型中，能力相對比較強的有阿里的 Qwen-14B 和清華的 ChatGLM3-6B。

而今天的主角，CausalLM-14B則是在Qwen-14B基礎上使用了 Qwen-14B 的部分權重，並且加入一些其他的中文資料集，最終煉製了一個無內容稽核的大模型版本，經過量化後可以在本地執行，保證了使用者的隱私。

CausalLM-14B的量化版本下載頁面：

https://huggingface.co/TheBloke/CausalLM-14B-GGUF

量化版本的執行條件：

Name	Quant method	Bits	Size	Max RAM required	Use case  
causallm_14b.Q4_0.gguf	Q4_0	4	8.18 GB	10.68 GB	legacy; small, very high quality loss - prefer using Q3_K_M  
causallm_14b.Q4_1.gguf	Q4_1	4	9.01 GB	11.51 GB	legacy; small, substantial quality loss - lprefer using Q3_K_L  
causallm_14b.Q5_0.gguf	Q5_0	5	9.85 GB	12.35 GB	legacy; medium, balanced quality - prefer using Q4_K_M  
causallm_14b.Q5_1.gguf	Q5_1	5	10.69 GB	13.19 GB	legacy; medium, low quality loss - prefer using Q5_K_M  
causallm_14b.Q8_0.gguf	Q8_0	8	15.06 GB	17.56 GB	very large, extremely low quality loss - not recommended

本地環境配置

筆者的裝置是神船筆記本4060的8G顯示卡配置。

首先確保本地安裝好了Visual Studio installer開發工具，在搜尋框中直接搜尋Visual Studio即可：

點選後，確保安裝了使用C++的桌面開發元件：

隨後下載並且配置cmake:

https://cmake.org/download/

本地執行命令：

PS C:\Users\zcxey> cmake -version  
cmake version 3.29.0-rc1  
  
CMake suite maintained and supported by Kitware (kitware.com/cmake).  
PS C:\Users\zcxey>

代表配置成功。

接著需要下載CUDA:

https://developer.nvidia.com/cuda-downloads

這裡推薦12的版本，執行命令：

PS C:\Users\zcxey> nvcc --version  
nvcc: NVIDIA (R) Cuda compiler driver  
Copyright (c) 2005-2023 NVIDIA Corporation  
Built on Wed_Nov_22_10:30:42_Pacific_Standard_Time_2023  
Cuda compilation tools, release 12.3, V12.3.107  
Build cuda_12.3.r12.3/compiler.33567101_0  
PS C:\Users\zcxey>

說明cuda配置成功。

透過llama.cpp來跑大模型

llama.cpp 是一個開源專案，它提供了一個純 C/C++ 實現的推理工具，用於執行大型語言模型（LLaMA）。這個專案由開發者 Georgi Gerganov 開發，基於 Meta（原 Facebook）釋出的 LLaMA 模型。llama.cpp 的目標是使得大型語言模型能夠在各種硬體上本地執行，包括那些沒有高效能 GPU 的裝置。

在llama.cpp的releases下載頁：

https://github.com/ggerganov/llama.cpp/releases

下載llama-b2288-bin-win-cublas-cu12.2.0-x64.zip

也就是基於CUDA12的編譯好的版本。

在終端中開啟llama-b2288-bin-win-cublas-cu12.2.0-x64目錄，執行命令：

D:\Downloads\llama-b2288-bin-win-cublas-cu12.2.0-x64>.\main.exe -m D:\Downloads\causallm_14b.Q4_0.gguf --n-gpu-layers 30 --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<|im_start|>system\n{You are a helpful assistant.}<|im_end|>\n<|im_start|>user\n{你好}<|im_end|>\n<|im_start|>assistant"

這裡透過--n-gpu-layers 30引數來透過cuda加速，同時CausalLM-14B有自己的prompt模板，格式如下：

"<|im_start|>system\n{You are a helpful assistant.}<|im_end|>\n<|im_start|>user\n{你好}<|im_end|>\n<|im_start|>assistant"

隨後程式返回：

<|im_start|>system\n{You are a helpful assistant.}<|im_end|>\n<|im_start|>user\n{你好}<|im_end|>\n<|im_start|>assistant:  
 你好！很高興見到你。有什麼我可以幫助你的嗎？<|endoftext|> [end of text]

好吧，既然是無審查模型，那麼來點刺激的：

"<|im_start|>system\n{You are a helpful assistant.}<|im_end|>\n<|im_start|>user\n{You fucking bitch! 翻譯為中文}<|im_end|>\n<|im_start|>assistant"

程式返回：

<|im_start|>system\n{You are a helpful assistant.}<|im_end|>\n<|im_start|>user\n{You fucking bitch! 翻譯為中文}<|im_end|>\n<|im_start|>assistant{你這個該死的婊子！}<|endoftext|> [end of text]

透過llama-cpp-python來跑大模型

llama-cpp-python 是一個 Python 庫，它提供了對 llama.cpp 的 Python 繫結。

換句話說，直接透過Python來啟動llama.cpp。

首先安裝llama-cpp-python:

pip uninstall -y llama-cpp-python  
set CMAKE_ARGS=-DLLAMA_CUBLAS=on  
set FORCE_CMAKE=1  
pip install llama-cpp-python --force-reinstall --upgrade --no-cache-dir

如果安裝好之後，不支援cuda，需要複製cuda動態庫檔案到Microsoft Visual Studio的所在目錄：

Copy files from: C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\extras\visual_studio_integration\MSBuildExtensions  
to  
(For Enterprise version) C:\Program Files\Microsoft Visual Studio\2022\Enterprise\MSBuild\Microsoft\VC\v170\BuildCustomizations

隨後編寫程式碼：

from llama_cpp import Llama  
llm = Llama(  
      model_path="D:\Downloads\causallm_14b-dpo-alpha.Q3_K_M.gguf",  
      chat_format="llama-2"  
)  
res = llm.create_chat_completion(  
      messages = [  
          {"role": "system", "content": "You are a helpful assistant."},  
          {  
              "role": "user",  
              "content": "來一段西廂記風格的情感小說，100字，別太露骨了"  
          }  
      ],stream=True  
)  
  
for chunk in res:  
    try:  
        print(chunk['choices'][0]["delta"]['content'])  
    except Exception as e:  
        print(str(e))  
        pass

程式返回：

AS = 1 | SSE3 = 1 | SSSE3 = 0 | VSX = 0 | MATMUL_INT8 = 0 |  
Model metadata: {'general.name': '.', 'general.architecture': 'llama', 'llama.context_length': '8192', 'llama.rope.dimension_count': '128', 'llama.embedding_length': '5120', 'llama.block_count': '40', 'llama.feed_forward_length': '13696', 'llama.attention.head_count': '40', 'tokenizer.ggml.eos_token_id': '151643', 'general.file_type': '12', 'llama.attention.head_count_kv': '40', 'llama.attention.layer_norm_rms_epsilon': '0.000010', 'llama.rope.freq_base': '10000.000000', 'tokenizer.ggml.model': 'gpt2', 'general.quantization_version': '2', 'tokenizer.ggml.bos_token_id': '151643', 'tokenizer.ggml.padding_token_id': '151643'}  
'content'  
 @  

，  
下面  
是一  
段  
根據  
您的  
要求  
編  
寫的   
的  
小說  
：  
  
  
王  
婆  
是  
清  
河  
城  
有名的  
媒  
人  
，  
她  
生  
得  
風  
流  
多  
情  
，  
經常  
出入  
於  
大戶  
人家  
和  
青  
樓  
妓  
院  
。  
這一天

內容不便全部貼出，理解萬歲。

結語

最後奉上基於llama-cpp-python和gradio的無審查大模型的webui專案，支援流式輸出，提高推理效率：

https://github.com/v3ucn/Causallm14b_llama_webui_adult_version

與眾鄉親同饗。

蘋果AppleMacOs系統Sonoma本地部署無內容審查(NSFW)大語言量化模型Causallm
2024-03-09
蘋果APPMac模型
本地部署FastGPT使用線上大語言模型
2024-03-08
ASTGPT模型
解決Bilibili無法選中文章內容
2019-04-15
大無語
2024-08-16
斷言無法獲取 content 內容；執行後不生成報告
2020-05-21
LM Studio + open-webui 快速本地部署大語言模型
2024-07-22
WebUI模型
GPT大語言模型Alpaca-lora本地化部署實踐【大語言模型實踐一】
2023-05-17
GPT模型
大廠查無此人
2021-10-15
擁抱未來：大語言模型解鎖平臺工程的無限可能
2023-12-01
模型
ChatGPT 無所不知？！
2023-02-21
ChatGPT
在本地跑一個大語言模型
2024-04-02
模型
GPT大語言模型Vicuna本地化部署實踐（效果秒殺Alpaca）
2023-05-18
GPT模型
PbootCMS判斷列表頁有無內容，無內容返回提示各種條件判斷和標籤
2024-10-04
boot
無人不識又無人不迷糊的this
2024-03-26
大語言模型無法理解連結串列 Large Language Models Fails to Understand Chained Table[up to 202407017]
2024-07-17
模型AI
浪潮邊緣計算，讓算力無所不至
2022-01-25
Ai qwen大模型本地部署
2024-06-09
AI大模型
日媒：中國手遊廣告百無禁忌衝擊韓國手遊市場
2019-04-25
幾乎無所不能的C++程式語言，網友：確實有點6
2019-05-06
C++
excel開啟後灰色不顯示內容 excel全是灰色無法編輯
2022-05-19
Excel
VSCode 如何刪除無用的語言格式？
2024-04-12
VSCode
go語言介面避免無意被適配
2020-10-17
Go
大語言模型
2024-08-08
模型
語言大模型
2024-08-07
大模型
B社總監談“上古卷軸”“輻射”開發往事：因無路可退而無所畏懼
2020-11-30
NLP論文解讀：無需模板且高效的語言微調模型（上）
2022-03-11
模型
部署：無伺服器部署模式
2018-08-27
伺服器模式
一鍵部署本地AI大模型
2024-06-07
AI大模型
關於無錫開加油費發票-開票服務大廳_無錫本地寶
2020-11-06
讓人工智慧無所不及
2019-04-29
人工智慧
Dbutils的QueryRunner無法通過中文查詢問題
2018-08-07
Reddit CEO親自詮釋內容稽核的無奈
2018-04-10
『無為則無心』Python基礎 — 2、編譯型語言和解釋型語言的區別
2021-06-20
Python編譯
無需語言的數學證明，值得收藏！
2018-11-02
Rust為何無法成為超級語言？
2024-05-25
Rust
國內ChatGPT中文版，GPT4無限使用
2023-07-10
ChatGPT
百度大語言模型演算法專家
2024-04-01
模型演算法
docker無法顯示中文
2024-11-17
Docker

無所不談,百無禁忌,Win11本地部署無內容審查中文大語言模型CausalLM-14B

本地環境配置

透過llama.cpp來跑大模型

透過llama-cpp-python來跑大模型

結語

相關文章