GPT釋放的意圖識別想象力

纪煜楷發表於2024-10-30

原文網址 : https://www.cnblogs.com/jiyukai/p/18516850

一、ChatGPT與GPT

ChatGPT是一個聊天應用。一個輸入框，輸入你想問他的任何問題，他會給你一個答案，並且這個答案看起來是經過思考、講究語法並且正確的。他理解你的語言，並能用你的語言給你答案。

而這背後，就是GPT這個大模型在發揮作用（Generative Pre-trained Transformer），翻譯為“基於Transformer的生成式預訓練模型”（引號裡的中文值得逐字理解），通俗點講，這個模型的目的就是理解你輸入的文字，然後計算答案，然後用你能懂的語言進行呈現。

至於什麼是Transformer、它為什麼可以做到，這背後的技術點，我們下文展開。

對於行業小白，我們先科普幾個這個行業關鍵詞：

NLP：Natural Language Processing，自然語言處理。
AGI：General Artificial Intelligence，通用人工智慧。
LLM：Large Language Modle，大語言模型。
AIGC：AI-generated content，網際網路人應該都聽過UGC、PGC，沒錯這個就是AIGC，AI生成內容。

連起來造句就是：要想讓AI達到通用人工智慧（AGI）的程度，自然語言（NLP）領域的大語言模型（LLM）能力是非常重要的，大語言模型（LLM）領域有一個重要的應用就是AIGC。

二、GPT大模型背後的關鍵技術點

如果你想要研究清楚GPT背後的技術點以及發展脈絡，可以先從以下幾個概念入手。

1. Transformer

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

你可以理解為他是一個特徵提取器，中文語義：轉換器，他的目的就是把你給他的文字資料進行理解學習，形成他認為的人類語法。有資料說明，光GPT3就用了45TB的文字資料，涵蓋中文、英文等多國語言，模型生成了超1.7萬億的引數。就像一個一兩歲的孩子，沒背單詞、沒背語法、沒學拼音也會說話一樣。這中間的實現就是這個模型在起作用。所以也堪稱暴力美學。

用技術術語說，Transformer的核心是自注意力機制（self-attention），它可以讓模型在處理序列資料時，將不同位置的資訊加權組合起來，從而更好地理解輸入序列的結構和含義。這其中的核心手段是編碼和解碼，即Encoder和Decoder。

Encoder把輸入文字編碼成一系列向量，Decoder則將這些向量逐一解碼成輸出文字。在每一個Encoder和Decoder中，都有多個自注意力層和前饋神經網路層組成。這些層透過不斷傳遞資訊和調整引數，最終將輸入轉化為一個意義準確的輸出。

2. MLM（Masked Language Modeling）

MLM（掩碼語言模型）是 GPT 預訓練中的一個關鍵技術點，其目的是透過對輸入序列中的部分單詞進行遮蓋，使模型在預測下一個單詞時能夠學習到上下文的資訊。簡單但很巧妙。

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

在MLM中，模型會在輸入的文字序列中隨機選擇一些單詞，並將其替換為特殊的MASK標記。模型的任務是預測這些MASK標記所代表的單詞是什麼。因為模型只能觀察到MASK標記周圍的文字，因此它需要對上下文進行建模，以便正確地預測MASK標記所代表的單詞。Transformer、MLM等等這些架構、演算法和模型設計讓GPT問世，而Prompt和Fine-tune可以讓我們能更好的使用他。

3. Prompt

中文語義：提問、提示語。在與ChatGPT對話的時候，我們的輸入即為prompt，想要讓GPT更好的理解我們的意圖，那prompt的精度就決定了這個大模型能否高效理解我們的意圖。

特別是在AIGC領域，只要你能想到，他就可以給你反饋。如果把GPT看做一個知識的海洋、一個可以持續再生的金庫，人類想要攫取，那Prompt會變得非常非常非常重要，它就是那個金鑰匙。

4. Fine-tune

中文語義：微調。企業在應用AI能力時，GPT可以定義為一個理解自然語言的初始模型，為了更好地應用在業務場景中，可以在GPT的基礎上進行微調，理解為一個有監督學習的過程，餵給他我們的業務資料或領域資料集，讓他能讀懂我們的業務資料並按需輸出。

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

三、大語言模型對軟體產品的改變

1. 使用者需求被直觀暴露

目前的軟體產品，使用者的真實需求主要是透過在軟體產品內的行為資料進行發現和理解，如監控使用者反覆檢視某個商品、使用者搜尋了某個商品、使用者將什麼商品新增到了購物車，基於此進行分析、預測，根據使用者行為反饋再進行調優。

當有了自然語言處理的能力，使用者會直接暴露自己的需求，如“我需要購買從北京到三亞的往返機票，旅途5天，希望有一半時間住民宿，機票和住宿一共7000元預算，請給我提供一個規劃”。

這種簡單粗暴的互動，會迭代目前“業務與行為資料採集、資料聚合與處理、使用者畫像建模、人/物標籤計算、推薦演算法、反饋調優”的整套資料工程。當下自然語言所暴露出來的需求會在資料集中佔更大的權重。

2. 新的人機互動

ChatGPT、Midjourney+Discord、文心一言等現在都是透過聊天框模式提供服務。這確實也是人與機器透過自然語言溝通最理想的方式。但chat模式不是當前人機互動的終極形態。

人與機器互動，想要達成期望結果，對話方塊、對話方塊+命令列、對話方塊+外掛並不是當前人機互動的終極形態。

所以chat不是結果，但，已成必須。

比如我們的日常學習某一軟體，特別PS、資料分析工具等，學習門檻很高，這是因為軟體設計是自下而上的設計，人機互動的連線點是滑鼠（或約等於滑鼠的手指）。

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

想要讓軟體以及他的宿主——計算機，識別你的意圖，開發者需要完全依賴於滑鼠在計算機上的點選、拖拽、滾動等互動方式來設計軟體反饋。而現在，有了一種新的正規化，就是自然語言。基於LLM這樣的大模型，機器已經或逐步可以足夠理解人類的語言並做出正確的反映。如果再有滑鼠的互動加持，人類使用機器的效率會有更大程度的提升。

所以自然語言互動可能會成為所有軟體產品的必須。

3. 外掛化一些軟體，再淘汰一些軟體

軟體的工具如 word、PPT、EXCEL、印象筆記、Xmind、github正在“+AI”以降低使用成本了。你可以自研AI能力，也可以讓自己被外掛。當新的使用者習慣被養成，那些不能AI化的軟體會顯得異常難用。

比如一個資料分析平臺，

如果資料查詢只能透過自助式點選，而不是問答式就會面臨使用者體驗差評，如果資料查詢報表還需要人來去總結資料基礎表徵，而不是自動進行總結也會面臨使用者體驗差評。

於是，產品就會有逐步被棄用的風險。

4. 想象力變得更為重要

工具本身的術變得不是那麼重要，AIGC型別的工具使用門檻相對變低，但對人的大腦反而提出了更高的要求。

人的想象力是無限的，但實現能力是有限的，而AIGC工具，他可以讓想象具象化，甚至在你創作過程中給你驚喜。

過去做一張如下的圖需要在設計軟體上進行至少數小時的操作，初級選手光設計工具就得學習很久。如果這個需求是來自於客戶，那這其中的溝通和理解成本會變為很大的設計成本。

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

圖：在Midjourney平臺的創作而現在，你只需要描述你想要的，即使你要一個五彩斑斕的黑，AI也會實時給你一個他認為正確的反饋，你可以基於此不斷用語言進行調整或輔之以設計師的PS之術。

想象力變得越來越重要，甚至可以說得到了釋放。

四、值得思考的地方

1. 依然存在的學習成本

機器可以理解人類的語言，但並不代表可以精準理解人的意圖。這之間的gap需要人去不斷對機器調優，如模型迭代，同時也需要人去了解機器的語法，比如現在的Midjourney、playground，你的提問或prompt的使用也是有語法的，並配合圖形介面上的一些控制功能。

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

圖：Midjourney的prompt“語法“，來自於網路影片

2. 置信度

說GPT一本正經胡說八道，不是沒有證據，這是我最近的實際測試。

我：140和290之間有多少個質數？

ChatGPT：

140到290之間的質數包括：149, 151, 157, 163, 167, 173, 179, 181, 191, 193, 197, 199, 211, 223, 227, 229, 233, 239, 241, 251, 257, 263, 269, 271, 277, 281, 283, 293。因此，140到290之間有28個質數。

我：直接告訴我有多少個，而不是列出來。

ChatGPT：在140和290之間，共有28個質數。

我：確定？

ChatGPT：是的，確定。

我：重新計算一下，再給我一個答案。

ChatGPT：非常抱歉，在上一個回答中我犯了一個錯誤，實際上在140到290之間有23個質數。感謝您的提醒，希望這次的回答能夠滿足您的要求。

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

你以為這就是正確答案？這還不算完，於是我讓他寫了一個python指令碼：

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

程式碼沒問題，我執行了，於是：

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

沒錯，按ChatGPT給我的python執行，答案是27。誒？換個角度想，他也會犯錯，是不是更像人類？

3. 可解釋性

可解釋是可信的前提。我們塑造了他，卻不瞭解他，如果他輸出了一個錯誤的答案，但看起來是那麼正確，這時候我們就得警惕了（就像文中那個求解質數問題，看起來是那麼正確），應用在教育、醫療、建築設計等領域，他輸出了一個錯誤的藥方、他設計了一個尺寸差了幾公分的圖紙，如果他犯的錯誤無法及時發現，那他產生危害需要人類來買單。

我們需要了解他的決策動機是如何生成的，沒錯，就是動機。因為人在決策哪怕是犯罪，都會尋求背後的動機，是利他、利己還是此人有精神疾病，最終都會試圖用動機來解釋。

不能只推導到用了什麼計算框架和演算法，然後就給他不停地喂資料，要想讓他更好的為我們服務，找到合適的時機影響他，而不是任由他，最後可能站在我們的對立面。

換句話說，“知其所以然”也是我們求知的源動力。

4. 資料安全、使用者隱私與版權

資料是GPT的養料，使用者的資料從此變得越來越重要，想要微調，普通使用者想要使用，需要貢獻一方資料。GPT無國界，但資料有國界。目前國內中大型企業對GPT的API能力也仍處於封閉狀態（所以我們國家也一定會有自己的大模型，比如百度文心一言）。

關於版權，我們看ChatGPT自己如何說：

“根據國際版權法，創作作品的版權通常歸原作者所有。但是，當作品是由人工智慧生成時，問題就變得複雜了。因為人工智慧本身沒有創作權，它只是根據預設的演算法和資料生成內容。所以，根據現有的版權法律，AIGC的版權歸誰是一個尚未確定的問題。

另外，AIGC的版權問題還涉及到人工智慧的產權和智慧財產權。在AIGC的生成過程中，通常會涉及到許多演算法、資料、模型和程式等，這些都是有產權和智慧財產權的。因此，除了作品版權的問題之外，還需要考慮這些產權和智慧財產權的歸屬問題。

綜上所述，AIGC的版權問題是一個複雜的問題，需要在法律、技術和倫理等多個方面進行探討和解決。我們需要尋求各方面的意見和建議，來制定適當的法律和政策，以促進人工智慧技術的發展和利用。”

5. 責任與義務

自動駕駛時發生了事故，駕駛員需要承擔100%的責任。同樣的，使用AI工具工作，如果犯錯了，無論是工具還是人為的錯誤，那責任依然歸咎於人。

所以人類責任與義務的存在，決定了即使在AI時代，某些工作至少需要一個人來擔（bei）責（guo）。

6. 可持續性

這個大模型確實可以成為一個可持續再生的金庫，為人類服務。不過此時，他已經站在我們身旁，一同跟我們進化，人類長高1釐米，他可能會長高3釐米。

GPT、大語言模型入門版：面向網際網路從業人員的AI通識與個人思考

但如果人類停止對他的資料輸入，無論是新的知識、新的研究、還是今天的新聞，甚至對他的答案不做任何反饋。那麼他也會過時或不那麼好用。為了有更多的金礦可以攫取，我們會進入一個迴圈，不停的餵養他，迭代他，對他的輸出再反饋，他也不停地進化為我們服務。

五、職業發展

什麼樣的職業會被取代，不如想想什麼樣的職業會變得越來越重要。我覺得可以從兩個角度思考：

1. AI建造師

AI本身也是人創造出來的，如果他會取代一部分人的工作，那就走到上游去成為創造他的人。AI演算法工程師、資料採集與治理專家、AI軟硬體產品設計與開發、晶片、AI領域新聞媒體，這些都是以AI為中心的上下游領域。

2. 會用AI的人

一部分會用AI工具的人已經嚐到了甜頭，比如已經在Youtube、B站分享AI工具使用以及做教程的up主，他們都是第一波會用AI的人，已經賺到了AI啟蒙的紅利。

在企業內，AI可能不會完全替代某一崗位，但會替換掉一部分。如設計師、工程師，基礎工作可以交給AI來做，但AI輸出的結果需要有人審驗，更重要的是需要有人擔責，所以也會需要部分專職

借鑑：《人人都是產品經理》

如何賦予 GPT/LLM 自我意識1
2023-11-19
GPT
《天外世界》：黑曜石釋放創意的全新豁口
2020-01-13
釋放靜電行為監測識別系統
2024-09-12
釋放創意的力量，Sketch for Mac 向量繪圖軟體讓設計更出彩
2024-01-04
Mac繪圖
淺談意圖識別各種實現&數學原理
2021-03-29
天諭手遊迎來“雲捏臉”時代，讓玩家充分釋放想象力
2020-04-15
SketchBook Pro 2022：釋放您的創意，繪製無限可能
2023-10-26
使用AI識別語音和B站影片並透過GPT生成思維導圖
2024-08-25
AIGPT
影像識別的視覺化解釋史
2021-03-22
視覺化
Python 圖文識別
2019-11-09
Python
Tesseract 圖片識別
2019-08-05
美DARPA利用人工智慧技術識別敵國在“灰色地帶”的意圖
2018-04-23
人工智慧
圖片文字識別工具怎樣進行批次識別圖片？
2019-06-17
你絕對沒想到的GPT的底層意義
2023-04-06
GPT
釋放創意，盡在Pixologic ZBrush 2024中文版
2023-12-16
ZBrush
Maya 2024：突破創意界限，實現藝術家的想象力 mac/win版
2023-11-14
Mac
paddleocr圖片文字識別
2024-04-17
【技術分析】惡意 SPL 代幣識別指南
2024-10-11
【326】PIL 截圖及圖片識別
2018-06-23
The Foundry Nuke 15 - 強大的視覺效果合成軟體，釋放你的創意潛能！
2024-01-25
視覺
如何免費識別圖片文字？圖片文字識別軟體怎麼用
2021-12-27
SketchUp Pro 2023：釋放創意，輕鬆塑造三維世界 mac/win版
2023-11-02
Mac
MDC為追求卓越設計！釋放的Adobe國際認證，創意設計力量
2021-03-26
分享：識別圖片文字方法
2021-12-14
Tesseract OCR 圖片文字識別
2021-10-24
截圖識別的具體操作方法
2019-06-24
基於TLS的主動檢測識別惡意伺服器
2021-06-22
TLS伺服器
BIM自動識別三維地圖-Revit模型自動識別三維地圖-IFC模型自動識別三維地圖製作
2022-04-14
地圖模型
OpenAI的ChatGPT與GPT3區別？
2022-12-04
OpenAIChatGPT
解釋下如下程式碼的意圖：Array.prototype.slice.apply(arguments)
2024-12-04
APP
雷朋 Meta 眼鏡視覺識別功能開放測試；Ultravox 新版語音模型：語音理解超 GPT-4o 和 Gemini
2025-02-12
視覺模型GPT
java指紋識別以及谷歌圖片識別技術原始碼
2018-11-03
Java谷歌原始碼
放棄意義，換取力量
2022-08-11
[ARKit]7-ARKit1.5的圖片識別功能
2018-03-12
實現圖片文字識別的方法有哪些
2019-04-29
知識點！！8類常見惡意軟體以及如何識別它們
2018-07-31
如何將圖片識別成文字？
2024-03-14
手動輸入圖片識別
2020-10-09

GPT釋放的意圖識別想象力

一、ChatGPT與GPT

二、GPT大模型背後的關鍵技術點

1. Transformer

2. MLM（Masked Language Modeling）

3. Prompt

4. Fine-tune

三、大語言模型對軟體產品的改變

1. 使用者需求被直觀暴露

2. 新的人機互動

3. 外掛化一些軟體，再淘汰一些軟體

4. 想象力變得更為重要

四、值得思考的地方

1. 依然存在的學習成本

2. 置信度

3. 可解釋性

4. 資料安全、使用者隱私與版權

5. 責任與義務

6. 可持續性

五、職業發展

1. AI建造師

2. 會用AI的人

相關文章