向量化
表示成數字後方便電腦處理,向量化以後得空間結構,展現出了一定的規律
如何找到詞語的正確位置?
隨機產生詞向量,而後根據語料庫進行訓練
損失函式:計算出的結果和實際結果之間的差距,可以透過數學方法來收斂以使得差距越來越小
Word2Vec:詞向量模型,Google提出的詞向量化的方法,詞嵌入
資訊壓縮與特徵提取
CNN 卷積神經網路:找到了提取圖片特徵的方法
Transformer:Google提出的自注意力機制,解決了自然語言的特徵提取問題
- 相似度計算
- 整句提取
- 跨語言對映
BERT:注重對於語言的理解,訓練的方式是完形填空
GPT:注重語言的生成,訓練的方式是詞語接龍
ChatGPT
通用人工智慧,湧現