DSSM模型和tensorflow實現

weixin_33716557發表於2018-08-28

原文網址 : https://blog.csdn.net/weixin_33716557/article/details/87461998

DSSM 的原理很簡單，通過搜尋引擎裡 Query 和 Title 的海量的點選曝光日誌，用 DNN 把 Query 和 Title 表達為低緯語義向量，並通過 cosine 距離來計算兩個語義向量的距離，最終訓練出語義相似度模型。該模型既可以用來預測兩個句子的語義相似度，又可以獲得某句子的低緯語義向量表達。

論文原文

模型結構：

第一層是一個簡單的對映層，使用word hashing 方法將句子50W的one-hot表示降低到了3W，原理是對句子做letter level 的trigrim 並累加。
如下圖： #boy#會被切分成#-b-o, b-o-y, o-y-#。

選用trigrim而不用bigrim或者unigrim的原因是為了權衡表示能力和衝突，兩個單詞衝突表示兩個單詞編碼後的表示完全相同。

第二層到第四層是典型的MLP網路，最終得到128維的句子表示

啟用函式是tanh

對正負樣本計算cosine距離

再利用平滑後的softmax得到概率

損失函式是似然損失，原理是最大化點選正樣本的概率

論文中實現的一些細節：

下面用tensorflow實現這個經典的model
導包

import tensorflow as tf

定義基於語料的letter trigrim維度和輸入的query batch 和 doc batch

#TRIGRAM_D  表示letter trigrim 之後的維度
TRIGRAM_D = 1000

#定義query輸入和doc輸入
query_batch = tf.sparse_placeholder(tf.float32, 
                                    shape=[None,TRIGRAM_D], 
                                    name='QueryBatch')
doc_batch = tf.sparse_placeholder(tf.float32, 
                                    shape=[None, TRIGRAM_D], 
                                    name='DocBatch')

初始化第一層的引數，L1_N表示輸出的維度，參考的是論文中的初始化方法

#第一層輸出維度
L1_N = 300
l1_par_range = np.sqrt(6.0 / (TRIGRAM_D + L1_N))
weight1 = tf.Variable(tf.random_uniform([TRIGRAM_D, L1_N], 
                                        -l1_par_range, 
                                        l1_par_range))
bias1 = tf.Variable(tf.random_uniform([L1_N], 
                                       -l1_par_range, 
                                       l1_par_range))

#因為資料比較稀疏，所以用sparse_tensor_dense_matmul
query_l1 = tf.sparse_tensor_dense_matmul(query_batch, weight1) + bias1
doc_l1 = tf.sparse_tensor_dense_matmul(doc_batch, weight1) + bias1

#啟用層，也可以換成別的啟用函式
query_l1_out = tf.nn.tanh(query_l1)
doc_l1_out = tf.nn.tanh(doc_l1)

接下來構造第二三層

#第二層的輸出維度
L2_N = 300
l2_par_range = np.sqrt(6.0 / (L1_N+ L2_N))
weight2 = tf.Variable(tf.random_uniform([L1_N, L2_N], 
                                        -l2_par_range, 
                                        l2_par_range))
bias2 = tf.Variable(tf.random_uniform([L2_N], 
                                       -l2_par_range, 
                                       l2_par_range))

query_l2 = tf.sparse_tensor_dense_matmul(query_l1_out , weight2) + bias2
doc_l2 = tf.sparse_tensor_dense_matmul(doc_l1_out , weight2) + bias2

query_l2_out = tf.nn.tanh(query_l2)
doc_l2_out = tf.nn.tanh(doc_l2)

#第三層
L3_N = 128
l3_par_range = np.sqrt(6.0 / (L2_N+ L3_N))
weight3 = tf.Variable(tf.random_uniform([L2_N, L3_N], 
                                        -l3_par_range, 
                                        l3_par_range))
bias3 = tf.Variable(tf.random_uniform([L3_N], 
                                       -l3_par_range, 
                                       l3_par_range))

query_l3 = tf.sparse_tensor_dense_matmul(query_l2_out , weight3) + bias3
doc_l3 = tf.sparse_tensor_dense_matmul(doc_l2_out , weight3) + bias3

query_l3_out = tf.nn.tanh(query_l3)
doc_l3_out = tf.nn.tanh(doc_l3)

計算相似度

#NEG表示負樣本的個數
NEG  = 4

# ||yq||
query_norm = tf.tile(tf.sqrt(tf.reduce_sum(tf.square(query_l3_out ), 1, True)), 
                     [NEG + 1, 1])
# ||yd||
doc_norm = tf.sqrt(tf.reduce_sum(tf.square(doc_l3_out), 1, True))

# yqT yd
prod = tf.reduce_sum(tf.mul(tf.tile(query_l3_out , [NEG + 1, 1]), doc_l3_out), 1, True)
norm_prod = tf.mul(query_norm, doc_norm)

# cosine
cos_sim_raw = tf.truediv(prod, norm_prod)
cos_sim = tf.transpose(tf.reshape(tf.transpose(cos_sim_raw), [NEG + 1, BS])) * Gamma

計算loss

#BS為batch_size，計算batch平均損失

prob = tf.nn.softmax((cos_sim))

#正例的softmax值
hit_prob = tf.slice(prob, [0, 0], [-1, 1])

#最小化loss，計算batch的平均損失
loss = -tf.reduce_sum(tf.log(hit_prob)) / BS

定義優化方法，訓練

#定義優化方法和學習率
train_step = tf.train.GradientDescentOptimizer(FLAGS.learning_rate).minimize(loss)

with tf.Session(config=config) as sess:
    sess.run(tf.initialize_all_variables())
    for step in range(FLAGS.max_steps):
        sess.run(train_step, feed_dict={query_batch : ...
                                        doc_batch   : ...}})

實現過程中的一些細節：

doc和query是share hash embedding和mlp層的；
損失函式只包含了正例，但是在計算softmax值的時候考慮了反例，這也是反例存在的意義；

基於Python和TensorFlow實現BERT模型應用
2024-06-26
Python模型
DKT模型及其TensorFlow實現（Deep knowledge tracing with Tensorflow）
2021-12-25
模型
【TensorFlow篇】--Tensorflow框架實現SoftMax模型識別手寫數字集
2018-03-28
框架模型
TensorFlow 呼叫預訓練好的模型—— Python 實現
2018-10-10
模型Python
【Tensorflow_DL_Note12】TensorFlow中LeNet-5模型的實現程式碼
2018-05-06
模型
使用Tensorflow實現口算檢查器(1)：模型選擇
2019-03-04
模型
Tensorflow實現的深度NLP模型集錦（附資源）
2019-04-29
模型
TensorFlow模型儲存和提取方法
2020-04-06
模型
推薦模型NeuralCF：原理介紹與TensorFlow2.0實現
2021-03-27
模型
推薦模型DeepCrossing: 原理介紹與TensorFlow2.0實現
2021-03-14
模型ROS
TensorFlow實現Batch Normalization
2020-04-06
BATORM
tensorflow模型持久化儲存和載入
2018-04-23
模型持久化
使用PaddleFluid和TensorFlow訓練序列標註模型
2018-07-11
UI模型
編譯 TensorFlow 模型
2023-05-15
編譯模型
【TensorFlow】 TensorFlow-Slim影像分類模型庫
2021-09-09
模型
用TensorFlow實現ML模型並調優：每秒可做3億次預測
2021-09-23
模型
TensorFlow實現seq2seq
2019-02-28
TensorFlow實現線性迴歸
2019-06-05
教程帖：使用TensorFlow服務和Flask部署Keras模型！
2018-10-26
FlaskKeras模型
DSCI 525 系統需求模型和實現
2024-03-23
模型
Kubernetes 容器網路模型和典型實現
2020-09-25
模型
系統學習NLP（十六）--DSSM
2019-03-12
SSM
Python 載入 TensorFlow 模型
2024-08-19
Python模型
TensorFlow模型部署到伺服器---TensorFlow2.0
2021-08-01
模型伺服器
使用PaddleFluid和TensorFlow實現影像分類網路SE_ResNeXt
2018-06-20
UI
使用PaddleFluid和TensorFlow實現影象分類網路SE_ResNeXt
2018-06-20
UI
使用 TensorFlow Hub 和估算器構建文字分類模型
2018-09-05
文字分類模型
在 C/C++ 中使用 TensorFlow 預訓練好的模型—— 間接呼叫 Python 實現
2019-03-03
C++模型Python
[譯] TensorFlow 教程 – 07 Inception 模型
2019-02-28
模型
基於AlexNet和Inception模型思想的TFCNet模型設計與實現
2020-12-19
模型
一文詳解TensorFlow模型遷移及模型訓練實操步驟
2023-02-06
模型
獲取和生成基於TensorFlow的MobilNet預訓練模型
2020-11-03
模型
【Tensorflow_DL_Note6】Tensorflow實現卷積神經網路(1)
2018-04-18
卷積神經網路
【Tensorflow_DL_Note7】Tensorflow實現卷積神經網路(2)
2018-04-18
卷積神經網路
TensorFlow上實現AutoEncoder自編碼器
2020-04-06
在 C/C++ 中使用 TensorFlow 預訓練好的模型—— 直接呼叫Ｃ++ 介面實現
2018-10-12
C++模型
TensorFlow入門教程(26)車牌識別之文字檢測模型EAST程式碼實現(二)
2021-01-02
模型AST
深度學習之tensorflow2實戰：多輸出模型
2022-11-23
深度學習模型

DSSM模型和tensorflow實現

相關文章