矩陣求導(二)

小丑与锁鸟發表於2024-04-19
前面已經介紹了標量對向量和矩陣的求導以及向量和矩陣對標量的求導,現在介紹一下向量和向量之間的求導規則。
  • 向量對向量求導

不管被求導的向量是行向量還是列向量,我們求導的步驟都是統一的,只要選擇了分母佈局,其求導結果都是一個與分母同行數的矩陣,而列數則等於分子向量的維數。具體的求導過程如下:先將分子向量 f(\(\vec{y}\)) 沿縱向複製m份,每份分別對向量 \(\vec{y}\) 的分量 \({y}_1\)\({y}_m\) 求偏導,再按照向量對標量的求導法則進行運算。最後的結果,等於一個m*n的矩陣。

  • 常用的公式

矩陣對向量的求導不在本文的討論範圍之內,但是我們有一些常用公式可以使用。

  • 下圖的①是一個常用公式,他為我們提供了矩陣與向量的乘積對向量的導數。當A為一個向量時,公式同樣成立,但是由於我們通常預設向量的形式為列向量,因此常用 \({{A}}^{T}\) \(\vec{y}\) 來表示兩個向量的點積。此時,按照分母佈局結果應當是列向量,也就是A。這個推理過程非常簡單,只需要把\({{A}}^{T}\) \(\vec{y}\) 展開,就可以得到\(\sum {a}_i {y}_i\),而這個標量對向量 \(\vec{y}\)的求導就是每個分量 \({y}_i\) 前面的係數 \({a}_i\) (只有這一項含有\({y}_i\) )。
  • 另一個常用的公式是公式②。一個二次型對向量的求導,本質是一個標量對向量的求導,只不過這個標量較為特別,可以很有規律地寫成 \(\sum_{1}^{n}\sum_{1}^{n}{a}_{ij}{x}_i{x}_j\) 的形式。由於 \({{X}}^{T}\)X只是一個轉置的關係,他們其實含有相同的元素值,所以這個運算元可以對X進行完美地求導,結果正好是圖上的形式。當A為一個對稱陣時(通常情況下就是如此),答案會進一步簡化為2AX.

  • 鏈式法則

向量求導的鏈式法則與標量的類似,由於我們現在使用分母佈局,求導結果的形狀是確定的。如果我們僅僅沿用標量的法則,則會出現形狀無法對應的情況,此時我們想到標量的鏈式法則符合交換率,因此直接在向量求導中從右向左進行鏈式求導,就得到了想要的結果。

相關文章