文字單詞one-hot編碼

不該相遇在秋天發表於2021-01-04

原文網址 : https://www.cnblogs.com/fengyumeng/p/14222640.html

單詞->字母->向量

神經網路是建立在數學的基礎上進行計算的，因此對數字更敏感，不管是什麼樣的特徵資料都需要以向量的形式喂入神經網路，無論是圖片、文字、音訊、視訊都是一樣。

one-hot編碼，也就是獨熱編碼，是一種常用的編碼手段。在多分類識別的時候，喂入神經網路的標籤就是獨熱碼，比如手寫數字識別一共有10個分類，某張圖片標籤是6，則獨熱碼為：0 0 0 0 0 0 1 0 0 0

下面演示將一個單詞進行ont-hot編碼：

#字母表
word_id = {'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4, 'f': 5, 'g': 6, 'h': 7, 'i': 8, 'j': 9,'k': 10, 'l': 11, 'm': 12, 'n': 13, 'o': 14,'p': 15, 'q': 16, 'r': 17, 's': 18, 't': 19,'u': 20, 'v': 21, 'w': 22, 'x': 23, 'y': 24, 'z': 25}

#進行編碼的單詞
word = 'china'

#ont-hot編碼
arr = np.zeros((len(word),len(word_id)))
for k,w in enumerate(word):
    arr[k][word_id[w]] = 1

print(arr)

列印結果：

[[0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

文字->單詞->向量

文字編碼則與單詞編碼不同，單詞編碼以26個字母為對映字典，文字編碼需要以單詞為單位進行字典對映，因為單詞是有語義的，在實際場景中往往捕捉的是文字所表達的意思，而不是文字本身的字母組成。

#要編碼的文字
text = 'I am Chinese, I love China'
total_num = len(text.replace(',',' ').split())

#對映字典
word_id = {}
sentences = text.split(',')
for line in sentences:
    for word in line.split():
        if word not in word_id:
            word_id[word] = len(word_id)

print(word_id)

#ont-hot編碼
arr = np.zeros((len(sentences),total_num,len(word_id)))
for k,v in enumerate(sentences):
    for kk,vv in enumerate(v.split()):
        arr[k][kk][word_id[vv]] = 1

print(arr)

列印結果：

{'I': 0, 'am': 1, 'Chinese': 2, 'love': 3, 'China': 4}
[[[1. 0. 0. 0. 0.]
[0. 1. 0. 0. 0.]
[0. 0. 1. 0. 0.]
[0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0.]]

[[1. 0. 0. 0. 0.]
[0. 0. 0. 1. 0.]
[0. 0. 0. 0. 1.]
[0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0.]]]

one-hot編碼
2018-04-10
關於One-hot編碼
2020-04-06
文字分析——分配單詞權重
2019-03-04
[LeetCode] Short Encoding of Words 單詞集的短編碼
2018-12-08
LeetCodeEncoding
資料預處理之獨熱編碼（One-Hot）
2020-09-25
超越單詞計數：上下文位置編碼CoPE
2024-05-30
PyTorch之對類別張量進行one-hot編碼
2022-01-16
PyTorch
簡單的文字編輯
2020-10-10
NLP《詞彙表示方法（一）one-hot向量表示》
2020-11-01
Python實現類別變數的獨熱編碼（One-hot Encoding）
2023-02-15
Python變數Encoding
MyEclipse設定文字編碼
2021-09-09
Eclipse
解碼返回Unicode編碼的文字
2024-04-22
Unicode
文字檔案的編碼格式
2022-09-01
softmax迴歸——原理、one-hot編碼、結構和運算、交叉熵損失
2021-08-21
熵
PHP讀取文字並計算單詞所在行列
2021-09-09
PHP
C++原始碼單詞掃描程式（詞法分析）
2020-10-16
C++原始碼詞法分析
AOSP 原始碼整編單編
2019-01-02
原始碼
python統計英文文字中的迴文單詞數
2020-05-13
Python
火星文：一種特殊的文字編碼
2024-03-25
文字和原始碼編輯器EditRocket for Mac
2022-07-18
原始碼Mac
單詞
2024-10-12
Java 實現《編譯原理》簡單詞法分析功能
2019-06-13
Java編譯原理詞法分析
Winform DataGridViewTextBoxCell 編輯新增右鍵選單，編輯選中文字
2023-01-16
ORMView
Python文字處理NLP：分詞與詞雲圖
2019-07-08
Python分詞
Python中常用的文字轉義及編碼
2022-03-09
Python
Shell文字處理編寫單行指令的訣竅
2018-03-20
文字挖掘之語料庫、分詞、詞頻統計
2024-05-20
分詞
單詞拆分
2024-04-25
webpack單詞
2020-12-31
Web
中文字串轉 unicode 編碼的字串
2019-02-25
字串Unicode
單詞拼寫糾正-05-2452.力扣距離字典兩次編輯距離以內的單詞
2024-12-09
力扣
敏感詞 v0.19.0 新特性之敏感詞單個編輯，不必重複初始化
2024-09-19
css文字編輯
2018-09-09
CSS
使用 Raku 編寫簡單的文字識別模擬程式
2024-11-17
使用 Vala 編寫一個簡單的文字識別程式
2024-11-08
FSM:One-hot logic equations
2024-04-16
python 計算txt文字詞頻率
2018-07-29
Python
處理文字資料（上）:詞袋
2022-06-03

文字單詞one-hot編碼

單詞->字母->向量

文字->單詞->向量

相關文章