[阿里DIN] 從模型原始碼梳理TensorFlow的乘法相關概念
0x00 摘要
本文基於阿里推薦 DIN 和 DIEN 程式碼,梳理了下深度學習一些概念,以及TensorFlow中的相關實現。
因為篇幅所限,所以之前的整體程式碼講解中,很多細節沒有深入,所以本文會就這些細節進行探討,旨在幫助小夥伴們詳細瞭解每一的步驟以及為什麼要這樣做。
本文涉及概念有:矩陣乘積,多維矩陣相乘,tile,張量廣播等。
0x01 矩陣乘積
這裡只介紹一般矩陣乘積和哈達瑪積,因為DIN和DIEN有使用到。
1.1 matmul product(一般矩陣乘積)
m x p
矩陣A與p x n
矩陣B,那麼稱 m x n
矩陣C為矩陣A與矩陣B的一般乘積,記作C = AB
,其中矩陣C元素[cij]
為矩陣A、B對應兩兩元素乘積之和,
1.2 Hadamard product(哈達瑪積)
m x n
矩陣A = [aij]與矩陣 B = [bij]的Hadamard積,記為A * B
。新矩陣元素定義為矩陣A、B對應元素的乘積 (A * B)ij = aij.bij
1.3 tf.matmul
此函式是:將矩陣a乘以矩陣b,生成a * b。就是向量乘法,即線性代數中的矩陣之間相乘的運算。
格式: tf.matmul(a, b, transpose_a=False, transpose_b=False, adjoint_a=False, adjoint_b=False, a_is_sparse=False, b_is_sparse=False, name=None)
主要引數:
- a: 一個型別為 float16, float32, float64, int32, complex64, complex128 且張量秩 > 1 的張量。
- b: 一個型別跟張量a相同的張量。
注意:
- 輸入必須是矩陣(或者是張量秩 >2的張量,表示成批的矩陣),並且其在轉置之後有相匹配的矩陣尺寸。
- 兩個矩陣必須都是同樣的型別,支援的型別如下:float16, float32, float64, int32, complex64, complex128。
1.4 tf.multiply
此函式是:兩個矩陣中對應元素各自相乘,即逐元素操作。逐元素操作是指把x中的每一個元素與y中的每一個元素逐個地進行運算。就是哈達瑪積。
格式: tf.multiply(x, y, name=None)
引數:
- x: 一個型別為:half, float32, float64, uint8, int8, uint16, int16, int32, int64, complex64, complex128的張量;
- y: 一個型別跟張量x相同的張量;
- 返回值: x * y element-wise;
注意:
- multiply這個函式實現的是元素級別的相乘,也就是兩個相乘的數元素各自相乘,而不是矩陣乘法,注意和tf.matmul區別。
- 兩個相乘的數必須有相同的資料型別,不然就會報錯。
1.5 過載
TensorFlow會進行操作符過載,具體是:
元素乘法:tf.multiply()
,可以用*
運算子代替,
向量乘法:tf.matmul()
,可以用@
運算子代替。向量乘法採用的乘法是線性代數中的矩陣之間相乘的運算。
1.6 DIN使用
在DIN使用如下:
# 7. 得到了正確的權重 scores 以及使用者歷史行為序列 facts, 再進行矩陣相乘得到使用者的興趣表徵
# Weighted sum,
if mode == 'SUM':
# scores 的大小為 [B, 1, T], 表示每條歷史行為的權重,
# facts 為歷史行為序列, 大小為 [B, T, H];
# 兩者用矩陣乘法做, 得到的結果 output 就是 [B, 1, H]
# B * 1 * H 三維矩陣相乘,相乘發生在後兩維,即 B * (( 1 * T ) * ( T * H ))
# 這裡的output是attention計算出來的權重,即論文公式(3)裡的w,
output = tf.matmul(scores, facts) # [B, 1, H]
# output = tf.reshape(output, [-1, tf.shape(facts)[-1]])
else:
# 從 [B, 1, H] 變化成 Batch * Time
scores = tf.reshape(scores, [-1, tf.shape(facts)[1]])
# 先把scores在最後增加一維,然後進行哈達碼積,[B, T, H] x [B, T, 1] = [B, T, H]
output = facts * tf.expand_dims(scores, -1) # 過載了,就是multiply,哈達瑪積
output = tf.reshape(output, tf.shape(facts)) # Batch * Time * Hidden Size
return outputpy
0x02 多維矩陣相乘
2.1 TensorFlow實現
矩陣乘法本質上只能是兩個二維的matrix進行叉乘,那麼兩個三維甚至四維的矩陣相乘是怎麼做到的呢?
答案是:兩個多維矩陣相乘時,假如分別是a 和 b,如果a和b的dimention大於2,實際上進行的會是batch_mat_mul,此時進行叉乘的是batch中的每一個切片(slice)。
- a和b除了最後兩個維度可以不一致,其他維度要相同;
- a和b最後兩維的維度要符合矩陣乘法的要求(比如a的(3,4)能和b的(4,6)進行矩陣乘法);
比如
- a的維度是(2,2,3);
- b的維度是(2,3,2);
第一維 2 相同, 最後兩維 滿足矩陣乘法要求,一個是(i,j),另一個必須是(j,k)。
相乘後,除後兩維之外的維度不變,後兩維變成(i,k),如(…,i,j)*(…,j,k)= (…,i,k),對應本例相乘結果是 (2,2,2)。
2.2 DIN使用
DIN中使用可以參見上節程式碼,裡面都是高維矩陣相乘。
0x03 tile
某些情況下,矩陣相乘中會隱含包括tile操作,所以要預先講解。
3.1 tile函式
Tensorflow中tile是用來複制tensor的指定維度。具體看下面的程式碼:
import tensorflow as tf
a = tf.constant([[1, 2], [3, 4], [5, 6]], dtype=tf.float32)
a1 = tf.tile(a, [2, 2])
with tf.Session() as sess:
print(sess.run(a1))
結果就是:
[[ 1. 2. 1. 2.]
[ 3. 4. 3. 4.]
[ 5. 6. 5. 6.]
[ 1. 2. 1. 2.]
[ 3. 4. 3. 4.]
[ 5. 6. 5. 6.]]
因為
a1 = tf.tile(a, [2, 2]) 表示把a的第一個維度複製兩次,第二個維度複製2次。
3.2 DIN使用
在DIN中,可以通過執行時變數看到tile的作用,可見 query 擴充套件成 queries,就是按照 tf.shape(facts)[1] 的數值來擴充套件。
queries = tf.tile(query, [1, tf.shape(facts)[1]])
facts = {Tensor} Tensor("rnn_1/gru1/transpose:0", shape=(?, ?, 36), dtype=float32)
query = {Tensor} Tensor("Attention_layer_1/add:0", shape=(?, 36), dtype=float32)
queries = {Tensor} Tensor("Attention_layer_1/Tile:0", shape=(?, ?), dtype=float32)
queries = tf.reshape(queries, tf.shape(facts))
queries = {Tensor} Tensor("Attention_layer_1/Reshape:0", shape=(?, ?, 36), dtype=float32)
tf.shape(facts)[1] 的數值是 4,query 的shape是[128 36]。
[
[0.0200167075 -0.00225125789 -9.32959301e-05 0.0160047226 0.0463943668 -0.00113779912 -0.00141796377 -0.000895748846 0.0205967128 0.0120106135 0.0233127 -0.000518312503 0.0179327205 0.00611556 0.0276019834 0.0250585414 0.0206870511 0.0126676112 -0.00169671408 -0.0029286067 -0.00291765784 0.00653835898 0.0137697691 0.0447938591 0.006571854 0.0171166249 0.0594488233 0.0111965612 0.0217649955 -0.000470559491 0.0169355199 0.0325907469 0.0242765 -0.00169698952 0.0238724295 0.0290065929]
[0.0174195394 -0.00232273433 -0.000350985356 0.0126237422 0.0450226218 -0.00097405276 -0.00162016717 -0.000970863 0.0230836142 0.0101783276 0.0212102327 -0.000583510089 0.0152175426 0.00769237662 0.0285565071 0.0254475642 0.0209889729 0.0134746656 -0.00162631273 -0.00267679896 -0.00319493 0.00920876209 0.0141795734 0.0454878397 0.0029891273 0.0177330635 0.0595819876 0.011406675 0.0246347431 -0.000576826278 0.0158954468 0.0311567299 0.024484111 -0.00184945751 0.0230423771 0.0260604471]
[0.0178403854 -0.00220142 -0.000242564696 0.0132796057 0.0460800715 -0.000954665651 -0.00147331599 -0.000593276578 0.0236354619 0.0102384314 0.0232978407 -0.000677037227 0.0149542987 0.0083344169 0.026211584 0.0257896669 0.0201499276 0.0104032271 -0.00147544965 -0.00248164777 -0.00298029534 0.00669088727 0.0161470883 0.046244178 0.00351092312 0.0186183155 0.0588327497 0.00999171101 0.0243503805 -0.000576853694 0.0162444208 0.0293106604 0.0244945567 -0.0017665698 0.022099141 0.0269105248]
...
queries的shape是 [128 144],內容如下:
[
[0.0200167075 -0.00225125789 -9.32959301e-05 0.0160047226 0.0463943668 -0.00113779912 -0.00141796377 -0.000895748846 0.0205967128 0.0120106135 0.0233127 -0.000518312503 0.0179327205 0.00611556 0.0276019834 0.0250585414 0.0206870511 0.0126676112 -0.00169671408 -0.0029286067 -0.00291765784 0.00653835898 0.0137697691 0.0447938591 0.006571854 0.0171166249 0.0594488233 0.0111965612 0.0217649955 -0.000470559491 0.0169355199 0.0325907469 0.0242765 -0.00169698952 0.0238724295 0.0290065929 0.0200167075 -0.00225125789 -9.32959301e-05 0.0160047226 ...
....
0x04 張量廣播
廣播(broadcasting)指的是不同形狀的張量之間的算數運算的執行方式。
4.1 目的
廣播的目的是將兩個不同形狀的張量 變成兩個形狀相同的張量:
TensorFlow支援廣播機制(Broadcast),可以廣播元素間操作(elementwise operations)。
正常情況下,當你想要進行一些操作如加法,乘法時,你需要確保運算元的形狀是相匹配的,如:你不能將一個具有形狀[3, 2]的張量和一個具有[3,4]形狀的張量相加。
但是,這裡有一個特殊情況,那就是當你的其中一個運算元是一個具有單獨維度(singular dimension)的張量的時候,TF會隱式地在它的單獨維度方向填滿(tile),以確保和另一個運算元的形狀相匹配。所以,對一個[3,2]的張量和一個[3,1]的張量相加在TF中是合法的。(這個機制繼承自numpy的廣播功能。其中所謂的單獨維度就是一個維度為1,或者那個維度缺失)
4.2 機制
廣播的機制是:
- 先對小的張量新增軸(使其ndim與較大的張量相同);
- 再把較小的張量沿著新軸重複(使其shape與較大的相同);
廣播的的限制條件為:
- 兩個張量的 trailing dimension(從後往前算起的維度)的軸長相等;
- 或 其中一個的長度為1;
即,如果兩個陣列的後緣維度(從末尾開始算起的維度) 的 軸長度相符或其中一方的長度為1,則認為它們是廣播相容的。廣播會在缺失維度和(或)軸長度為1的維度上進行。
廣播機制允許我們在隱式情況下進行填充(tile),而這可以使得我們的程式碼更加簡潔,並且更有效率地利用記憶體,因為我們不需要另外儲存填充操作的結果。一個可以表現這個優勢的應用場景就是在結合具有不同長度的特徵向量的時候。為了拼接具有不同長度的特徵向量,我們一般都先填充輸入向量,拼接這個結果然後進行之後的一系列非線性操作等。這是一大類神經網路架構的共同套路(common pattern)。
下面給出幾個例子。
4.3 例1
import tensorflow as tf
a = tf.constant([[1., 2.], [3., 4.]])
b = tf.constant([[1.], [2.]])
# c = a + tf.tile(b, [1, 2])
c = a + b
輸出是
[[2. 3.]
[5. 6.]]
4.4 例2
a = tf.constant([[1.], [2.]])
b = tf.constant([1., 2.])
c = tf.reduce_sum(a + b)
#c輸出12
給出分析如下:
你猜這個結果是多少?如果你說是6,那麼你就錯了,答案應該是12.這是因為當兩個張量的階數不匹配的時候,在進行元素間操作之前,TF將會自動地在更低階數的張量的第一個維度開始擴充套件,所以這個加法的結果將會變為[[2, 3], [3, 4]],所以這個reduce的結果是12.
(答案詳解如下,第一個張量的shape為[2, 1],第二個張量的shape為[2,]。因為從較低階數張量的第一個維度開始擴充套件,所以應該將第二個張量擴充套件為shape=[2,2],也就是值為[[1,2], [1,2]]。第一個張量將會變成shape=[2,2],其值為[[1, 1], [2, 2]]。)
4.5 DIN使用
在DIN使用如下:
# Weighted sum,
if mode == 'SUM':
...
else:
# facts 為歷史行為序列, 大小為 [B, T, H];
# scores 從 [B, 1, H] 變化成 Batch * Time
scores = tf.reshape(scores, [-1, tf.shape(facts)[1]])
# 然後把scores在最後增加一維,然後進行哈達碼積,[B, T, H] x [B, T, 1] = [B, T, H]
# 這裡就進行了張量廣播,因為 廣播會在缺失維度和(或)軸長度為1的維度上進行,自動進行tile操作
output = facts * tf.expand_dims(scores, -1) # 過載了,就是multiply,哈達瑪積
0xFF 參考
tf.matmul() 和tf.multiply() 的區別
對全連線層(fully connected layer)的通俗理解
史丹佛cs231n學習筆記(9)------神經網路訓練細節(Batch Normalization)
辨析matmul product(一般矩陣乘積),hadamard product(哈達瑪積)、kronecker product(克羅內克積)
Tensorflow 的reduce_sum()函式到底是什麼意思