03-為啥大模型LLM還沒能完全替代你？

公众号-JavaEdge發表於2024-04-22

原文網址 : https://www.cnblogs.com/JavaEdge/p/18151682

1 不具備記憶能力的

它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因為它也記不住那麼多。

2 上下文視窗的限制

大模型對其input和output，也就是它的輸入輸出有數量限制。為了保護它的，這計算能力或保護相當於一個頻寬概念，如說openAI之前只有32k。最新上下文視窗擴張到128k，大概相當於一本《Clean Code》，這個角度來說，這個問題其實已被解決。

但其他很多模型上下文視窗還是比較小，就有很多限制。如不可發一長段prompt或提示詞，也不可不停在那對話，你就需要注意計算你整個視窗token消耗，避免被截斷，可能就沒有辦法去輸入和輸出。

3 實時資訊更新慢，新舊知識難區分

基於預訓練的模型，拿大量資料來在神經網路的訓練，然後形成模型，它的知識庫就依賴於拿去訓練的這些材料。

底模資料較小時，就會出現幻覺，胡亂回答。

4 無法靈活的操控外部系統

很多大模型只可對話，但無法作為一個外腦去操作外部的一些系統。雖然chatgpt出現外掛機制和外掛開發工具。但實際使用後，它還是相當於提供一個非常標準的東西，定製開發或更深度融合較難。

比如想用大模型作為一個外腦操控智慧家居系統、操控汽車，都需要有一些聯結器和框架幫助。

5 無法為領域問題提供專業靠譜的答案

你問他一些泛泛而談的東西，他都能回答很好，但是你一旦問他一個非常專業問題，他就回答不上來，因為這塊兒的專業問題，他可能不涉及。雖然他回答的答案是看起來是像一個人在回答，但一眼就能看出來那個答案不對。

針對這些問題，業界基本提出兩種解決方案，但也都不能完全解決。

6 解決方案

6.1 微調（Fine-tunning）

主要解決的就是專業問題，專業知識庫問題，包括知識更新問題。

就是把這些資料餵給我們的大模型啊，再做一次訓練。基本上一次訓練也無法解決這個知識感知資訊問題，它只能更新它的資料庫。成本較高。因為相當於把你的資料問餵給OpenAI，然後全量訓練一次，成本相當高。

適用場景

做一些自有的大量資料的行業模型。所謂行業模型，如某專業領域的公司，積累的大量資料，如製藥公司在製藥過程積累大量製藥資料，你希望這個資料以AI智慧方式指導你的工作，就可用這種方式。把你的這個資料去餵給餵給大模型，對它再做一次調教。

這涉及一個概念

MaaS

module as a service，模型即服務。透過這個微調在大模型基礎上灌入行業資料，實現這種行業模型，就適合手裡擁有大量行業資料的。

這也只能解決領域資料專業性和知識庫更新問題，無法解決操作外部系統、記憶能力、視窗擴張。

6.2 提示詞工程（prompt engineering）

透過上下文提示詞設計引導。在LLM基礎上把這種專業資料透過：

Embedding嵌入
prompt提示詞

這兩個工具實現精準的專業回答，同時可實現：

實時系統的感知
操作外部系統
記憶增強
視窗控制擴張

好處明顯，無需訓練，不用去在LLM上面做訓練。

適用場景

適合資料樣本比較少的這種場景。如你有一本書，你希望說從這本書上去得到一些資訊，但是你又不想去讀它，你希望有個機器人，你問他問題，他直接從書裡面找到答案。這種就可以把書的資料作為專業資料，然後嵌入到我們的這個LLM，然後再透過prompt方式去引導，得到一個精確的答案。

這過程中間甚至還可把這些答案，和我的印表機系統連線，可直接列印。

兩種方式都可解決大模型問題，但適用場景不同，各自擅長點也不一樣，很多時候，兩者結合用效果較好。

微調，現在已經把門檻降到很低了，可直接把。把你想要微調的資料直接upload上去就可，但閉源大模型的資料安全的問題，資料所有性問題和成本問題。

提示詞工程適合開源大模型，如chatglm，在本地部署大模型，再做這種詞嵌入和提示詞引導，就可本地實現專業行業模型。但底層LLM可能沒用強大的，可能只是一個6b13b，它可能在語言組織或說一些智慧度上稍低。代表就是 langchain。

7 總結

大模型的這幾個問題都有，有兩套這樣的解決方案：

Model as aSerivce 模型即服務透過“微調”技術，在LLM基礎上灌入行業資料，實現行業模型
promptengineering提示詞工程，透過上下文提示詞設計31號LM輸出精確答案

都有自己的優劣點，然後都有自己適用的場景。所以用什麼方案呢？其實是看我們這個這個整個的這個專案的情況，專欄偏向第二種提示詞工程，即langchain框架的方式。

關注我，緊跟本系列專欄文章，咱們下篇再續！

作者簡介：魔都技術專家，多家大廠後端一線研發經驗，在分散式系統、和大資料系統等方面有多年的研究和實踐經驗，擁有從零到一的大資料平臺和基礎架構研發經驗，對分散式儲存、資料平臺架構、資料倉儲等領域都有豐富實踐經驗。

各大技術社群頭部專家博主。具有豐富的引領團隊經驗，深厚業務架構和解決方案的積累。

負責：

中央/分銷預訂系統效能最佳化

活動&優惠券等營銷中臺建設

交易平臺及資料中臺等架構和開發設計

車聯網核心平臺-物聯網連線平臺、大資料平臺架構設計及最佳化

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考：

程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出！

你還沒有聽過React不完全手冊？??
2019-04-01
React
大模型LLM下內容稽核
2025-01-10
大模型
LLM安全入門：為初學者破解大語言模型
2024-10-14
模型
不知道這些，你以為你還能devops?
2020-06-14
dev
還沒上線就完成了一波“文化輸出”，《高能英雄》為啥能讓老外集體“上頭”？
2023-09-20
什麼是大語言模型（LLM）？
2024-03-07
模型
大模型LLM微調策略一覽
2024-11-25
大模型
沒了IDE，你的Java專案還能Run起來嗎～
2020-06-09
IDEJava
你說啥什麼?註解你還不會？
2020-09-06
LLM大模型：推理最佳化-模型int8量化
2024-08-03
大模型
LLM大模型: Segment Anything Model原理詳解
2024-11-04
大模型
LLM大語言模型演算法特訓，帶你轉型AI大語言模型演算法工程師
2024-06-07
模型演算法AI工程師
Java好學嗎?完全沒經驗能學會嗎?
2021-10-29
Java
FBI-LLM低位元基礎大語言模型來了，首個完全從頭訓練的二值化語言模型
2024-07-28
模型
你有沒思考過，如何加入這場大模型浪潮？
2024-09-05
大模型
LLM大模型GPT2微調嘗試
2024-05-20
大模型GPT
Jlama：基於Java 20+大模型LLM引擎
2024-10-23
Java大模型
LLM大模型：deepspeed實戰和原理解析
2024-07-28
大模型
ES 不香嗎，為啥還要 ClickHouse？
2023-04-20
LLM 大模型學習必知必會系列(三)：LLM和多模態模型高效推理實踐
2024-05-28
大模型
新客為啥留不住？只因你沒有掌握復購分析的方法論
2021-08-31
沒有點真的大專案工程經驗，你真以為能進大廠的演算法崗？
2020-04-06
演算法
LLM模型融合（一）
2024-10-04
模型
8大理由告訴你，入行IT為啥建議你首選Java！
2020-09-10
Java
什麼是LLM大模型訓練，詳解Transformer結構模型
2024-06-04
大模型ORM
全棧工程師為啥能夠逆襲？
2020-04-04
全棧工程師
LLM大模型: 常用的資料清洗方法總結
2024-07-10
大模型
為什麼遊戲還沒賣出去，你們偏偏要作死？
2019-09-25
遊戲
大資料告訴你：為啥近5年來Python如此火爆？
2019-02-25
大資料Python
《暗黑2：獄火重生》：重製了，但還沒完全重製
2021-09-30
LLM大模型：LLaVa多模態圖片檢索原理
2024-08-08
大模型
雲端計算還有多久能夠替代高效能運算？
2021-07-06
史丹佛大學推出線性前沿LLM技術，訓練模型成本僅為20美元
2024-11-14
模型
人會逆向思維，LLM也可以？DeepMind研究表明還能提升推理能力
2024-12-21
LLM論文研讀: GraphRAG的替代者LightRAG
2024-10-30
為什麼大語言模型能將我們帶入AGI？
2024-06-13
模型
真實案例：使用LLM大模型及BERT模型實現合同審查系統
2024-08-15
大模型
LLM大模型向量資料庫技術架構淺析
2023-11-10
大模型資料庫架構

03-為啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的

2 上下文視窗的限制

3 實時資訊更新慢，新舊知識難區分

4 無法靈活的操控外部系統

5 無法為領域問題提供專業靠譜的答案

6 解決方案

6.1 微調（Fine-tunning）

適用場景

MaaS

6.2 提示詞工程（prompt engineering）

適用場景

7 總結

相關文章