LLM中詞向量的表示和詞嵌入的一些疑問

Mintisn發表於2024-10-13

原文網址 : https://www.cnblogs.com/Mintisn/p/18462830

LLM中詞向量的表示和詞嵌入的一些疑問

詞向量的一些特點

在3blue1brown的影片【官方雙語】GPT是什麼？直觀解釋Transformer | 深度學習第5章_嗶哩嗶哩_bilibili中, 在15min左右介紹了LLM的詞嵌入的過程.

其中提到mother的詞向量減去father的詞向量, 會近似於women的詞向量-man的詞向量

透過這個例子,說明模型在詞嵌入空間上的某一方向編碼了一個性別資訊. 這個例子非常生動, 也非常符合直覺.

類似的有一篇2017年發表在CogSci的研究1705.04416 (arxiv.org)

在這篇論文中,也提到類似的例子

即$E(woman)\approx E(man)+E(queen)-E(king)$

首先一點, 我認為使用$E(woman)\approx E(man)+E(queen)-E(king)$ 來說明模型在某一方向上編碼了特定資訊並不一定準確.

因為我們可以理解為women和man 是一組相似的詞, 詞向量是比較接近的,同理queen和king也是

事實上, 在llama3-8B-instruction 中,透過餘弦相似度去衡量woemn和man的詞向量, 可以發現他們確實如此)

由於E(queen)和E(king)本身比較接近,因此他們相減應該得到一個較小的向量, 那麼自然而然的,我們會有

\[E(woman)\approx E(man) \approx E(man)+E(queen)-E(king) \]

因此,我認為像3Blue1Brown中直接比較$E(queen)-E(king)$和$E(woman)- E(man)$ 相似度,顯然是一個更合適的選擇.

簡單的實現

如果他們是相似的,那麼他們的餘弦相似度值應該儘可能大, 然後, 在llama3-8b 的測試中, 我們發現他們的相似度為-0.0220,也就是說,$$E(queen)-E(king)$$和$$E(woman)- E(man)$$ 這兩個向量是幾乎正交的.

而和之前的分析一樣E(man) 和E(woman)-E(queen)+E(king)的相似度有0.3906, 這對於llama3模型而言是一個比較高的相似度(llama每個詞向量的維度是4096)

除了llama3,和簡單測試了phi-3, llama2,Qwen1.5等模型, 同時也簡單試了一下其他的詞, 得出了結果都和llama3基本都大差不差.

$E(queen)-E(king)$和$E(woman)- E(man)$ 這兩個向量不僅不是接近平行,甚至是幾乎正交的. 至此, 我們可以3b1b和這篇論文中說提出的理論雖然很簡潔優雅, 但在大模型上似乎沒有那麼奏效. 不過目前像3blue1brown中的理論, 依然可以在一些介紹LLM詞向量的文章中看到, 這個理論本身非常有道理, 但實測下來, 可能還是需要更加謹慎的看待這個理論.

llama3的結果

//E(woman)-E(man)和E(queen)-E(king)的相似度
tensor([-0.0220], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<SumBackward1>)
//E(man) 和E(woman)-E(queen)+E(king)的相似度
tensor([0.3906], device='cuda:0', dtype=torch.bfloat16, grad_fn=<SumBackward1>)
___________________________________
 fake word2: male+ queen- king  整個embeding矩陣中和這個詞最接近的一些詞(tensor中是他們的相似度)
tensor([0.6797, 0.5469, 0.3906, 0.3828, 0.3340, 0.3320, 0.3086, 0.3047, 0.2559,
        0.2500], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<TopkBackward0>)
[' male', ' queen', ' female', ' Male', ' males', 'Male', ' Queen', 'male', ' queens', ' Female']
___________________________________
 word1: male
tensor([1.0000, 0.5430, 0.5430, 0.4824, 0.4785, 0.4121, 0.3379, 0.3164, 0.2676,
        0.2598], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<TopkBackward0>)
[' male', ' Male', ' female', ' males', 'Male', 'male', ' Female', ' females', 'female', 'Female']
___________________________________
 word2: female
tensor([1.0000, 0.5898, 0.5430, 0.4922, 0.4902, 0.4727, 0.3438, 0.3340, 0.3086,
        0.3047], device='cuda:0', dtype=torch.bfloat16,
       grad_fn=<TopkBackward0>)
[' female', ' Female', ' male', 'Female', ' females', 'female', ' women', 'EMALE', ' woman', ' Male']

詞向量表示：word2vec與詞嵌入
2020-04-25
NLP《詞彙表示方法（二）詞嵌入表示》
2020-11-01
面向機器智慧的TensorFlow實戰7：詞向量嵌入
2018-05-26
NLP《詞彙表示方法（一）one-hot向量表示》
2020-11-01
【詞向量表示】Item2Vec、DeepWalk、Node2vec、EGES詞向量生成演算法
2024-12-05
演算法
第1節：英語中的名詞，冠詞和數詞，代詞
2018-09-02
文字情感分析(二)：基於word2vec和glove詞向量的文字表示
2019-05-19
詞向量入門
2020-05-27
【詞向量表示】Word2Vec原理及實現
2024-12-04
NLP 中不同詞嵌入技術的比較 - KDnuggets
2021-11-11
C#使用詞嵌入向量與向量資料庫為大語言模型(LLM)賦能長期記憶實現私域問答機器人落地
2023-05-09
C#資料庫模型機器人
怎樣生成一個好的詞向量
2018-06-16
親手做的詞向量分佈圖
2024-08-05
ACL 2019 | Few-shot Learning學習詞表外的詞表示
2019-07-24
詞向量word to vector通俗理解
2020-11-01
elasticsearch高亮之詞項向量
2022-03-15
Elasticsearch
使用 FastText 實現詞嵌入
2024-05-15
AST
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
淺談文字詞向量轉換的機制embedding
2018-03-12
LLM中的一些概念
2024-12-02
正規表示式 ? 量詞
2018-08-12
GitHub上中文詞向量（Chinese Word Vectors）的下載地址
2020-10-10
Github
匹配關鍵詞和敏感詞
2020-07-05
一些sql語句的關鍵詞
2018-12-04
SQL
Elasticsearch 的一些常見疑問（持續更新中）
2018-06-29
Elasticsearch
高效的關鍵詞替換和敏感詞過濾工具
2020-08-19
正規表示式查詢相似單詞的方法
2022-03-19
python分詞和生成詞雲圖
2020-12-08
Python分詞
利用詞向量進行推理（Reasoning with word vectors）
2022-01-22
NLP教程(2) | GloVe及詞向量的訓練與評估
2022-05-01
將使用jieba分詞的語料庫轉化成TFIDF向量
2020-12-09
Jieba分詞
總結HTTP中常見的一些名詞
2020-10-27
HTTP
js 的詞法作用域和 this
2020-10-11
JS
Go 常用的一些格式化樣式中的動詞及功能
2021-10-18
Go
從語言學角度看詞嵌入模型
2018-12-03
模型
嵌入式系統專業名詞：
2024-07-10
Java中名詞的解釋
2019-01-06
Java
構建RAG應用-day01: 詞向量和向量資料庫文件預處理
2024-04-17
資料庫

LLM中詞向量的表示和詞嵌入的一些疑問