LLM學習(3)——搭建知識庫

zddkk發表於2024-04-20

3.1.1 詞向量

詞向量(Word embedding),又叫Word嵌入式自然語言處理(NLP)中的一組語言建模和特徵學習技術的統稱,其中來自詞彙表的單詞或短語被對映到實數的向量。 從概念上講,它涉及從每個單詞一維的空間到具有更低維度的連續向量空間的數學嵌入。

3.1.2 詞嵌入

下面我介紹兩種詞嵌入方法:

word2vec

CBOW

LLM學習(3)——搭建知識庫
圖(1)
其中V是語料庫的總詞數,C是視窗大小,原劇論文的值是4,那麼就是透過$\omega_{t-2},\omega_{t-1},\omega_{t+1},\omega_{t+1}$去預測$\omega_{t}$其中$\omega$為ont-hot-encoding

透過上下文預測中心詞

Skip-gram

LLM學習(3)——搭建知識庫
圖(2)

透過中心詞預測上下文

Glove

3.2.1 Embedding API 使用

如何使用API詳見LLM學習(2)——使用 LLM API 開發應用(傳送門)

result = genai.embed_content(
    model="models/text-embedding-004",
    content="What is the meaning of life?",
    task_type="retrieval_document",
    title="Embedding of single string")

# 1 input > 1 vector output
print(str(result['embedding'])[:50], '... TRIMMED]')
print(result)
print(type(result))
print(type(result['embedding']))
#結果如圖(2)
LLM學習(3)——搭建知識庫
圖(3)

相關文章