【動手學深度學習】2.4 ~ 2.7 節學習(微積分、自動求導、機率、查閱文件)

bringlu發表於2023-04-03

2.4 微積分

2.4.3 梯度

梯度是一個多元函式所有變數偏導數的連線。具體而言:設函式 \(f:\mathbb{R}^n \rightarrow \mathbb{R}\) 的輸入是一個 \(n\) 維向量 \(\boldsymbol{x} = [x_1, x_2, \cdots, x_n]^T\),輸出是一個標量。函式 \(f(\boldsymbol{x})\) 相對於 \(\boldsymbol{x}\) 的梯度是一個包含 \(n\) 個偏導數的向量:

\[\nabla_x f(\boldsymbol{x}) = [\frac{\partial f(\boldsymbol{x})}{\partial x_1}, \frac{\partial f(\boldsymbol{x})}{\partial x_2}, \cdots, \frac{\partial f(\boldsymbol{x})}{\partial x_n}]^T \]

其中,\(\nabla_x f(\boldsymbol{x})\) 在沒有歧義時通常被 \(\nabla f(\boldsymbol{x})\) 取代。

假設 \(\boldsymbol{x}\)\(n\) 維向量,在對多元函式求微分時經常使用以下規則:

  • 對於所有 \(\boldsymbol{A} \in \mathbb{R}^{m\times n}\),都有 \(\nabla_\boldsymbol{x} \boldsymbol{Ax} = \boldsymbol{A}^T\)
  • 對於所有 \(\boldsymbol{A} \in \mathbb{R}^{m\times n}\),都有 \(\nabla_\boldsymbol{x} \boldsymbol{x}^T \boldsymbol{A} = \boldsymbol{A}\)
  • 對於所有 \(\boldsymbol{A} \in \mathbb{R}^{m\times n}\),都有 \(\nabla_\boldsymbol{x} \boldsymbol{x}^T \boldsymbol{Ax} = (\boldsymbol{A} + \boldsymbol{A}^T) \boldsymbol{x}\)
  • \(\nabla_x ||\boldsymbol{x}||^2 = \nabla_\boldsymbol{x} \boldsymbol{x}^T \boldsymbol{x} = 2\boldsymbol{x}\)

同樣,對於任何矩陣 \(\boldsymbol{X}\),都有 \(\nabla_\boldsymbol{X} ||\boldsymbol{X}||^2_F = 2\boldsymbol{X}\)

2.4.4 鏈式法則

假設可微函式 \(y\) 有變數 \(u_1, u_2, \ldots, u_m\),其中每個可微函式 \(u_i\) 都有變數 \(x_1, x_2, \ldots, x_n\)

\[\frac{\mathrm{d}y}{\mathrm{d}x_i} = \frac{\mathrm{d}y}{\mathrm{d}u_1} \frac{\mathrm{d}u_1}{\mathrm{d}x_i} + \frac{\mathrm{d}y}{\mathrm{d}u_2} \frac{\mathrm{d}u_2}{\mathrm{d}x_i} + \cdots + \frac{\mathrm{d}y}{\mathrm{d}u_m} \frac{\mathrm{d}u_m}{\mathrm{d}x_i} \]

2.5 自動求導

2.5.1 一些簡單的函式

  • x.requires_grad_(True) 表明 x 需要梯度,等價於 x = torch.arange(4.0, requires_grad=True)
  • x.grad 表示 x 的梯度
  • x.grad.zero_() 表示將 x 的梯度歸零
  • y.backward() 將 y 的值反向傳播,然後再 x.grad 即可看 x 的梯度。這個方法與 torch.autograd.grad() 差不多,但是,求高階導數只能用後一種方法,原因在於 backward() 後 x 的一階導已經佔據了 x.grad 沒有辦法做清零或者再 backward() 了。而且,torch.autograd.grad()create_graph 引數必須為 True
    • 引數 retain_graph 表示是否保留計算圖,因為正常為了保持速度,計算圖會在反向傳播完被銷燬,把這個調成 True,計算圖就不會被銷燬,仍然可以反向傳播。
    • 引數 create_graph 表示是否建立反向圖,有了反向圖就可以再次求高階導了。

2.5.2 非標量變數的反向傳播

由於自動梯度實現張量對張量求梯度很麻煩幾乎不可做,因此 PyTorch 中禁止了張量對張量求梯度。如果要張量對張量求梯度的話,最好將結果張量求和,例如呼叫 y.sum().backward()

\[[\frac{\partial (y_1 + y_2 + \ldots + y_n)}{\partial x_1}, \frac{\partial (y_1 + y_2 + \ldots + y_n)}{\partial x_2}, \ldots, \frac{\partial (y_1 + y_2 + \ldots + y_n)}{\partial x_n}] = [\frac{\partial y_1}{\partial x_1} + \frac{\partial y_2}{\partial x_1} + \ldots + \frac{\partial y_n}{\partial x_1}, \frac{\partial y_1}{\partial x_2} + \frac{\partial y_2}{\partial x_2} + \ldots + \frac{\partial y_n}{\partial x_2}, \cdots, \frac{\partial y_1}{\partial x_n} + \frac{\partial y_2}{\partial x_n} + \ldots + \frac{\partial y_n}{\partial x_n}] \]

或者也可以給 backward () 傳入 gradient 引數,如果要實現和上文一樣的功能,可以呼叫 y.backward(torch.ones_like(y)),效果一樣。參考 pytorch中backward函式的gradient引數作用PyTorch 的 backward 為什麼有一個 grad_variables 引數? 這兩篇文章。

假設 x 經過一番計算得到 y,那麼 y.backward(w) 求的不是 y 對 x 的導數,而是 l = torch.sum(y*w) 對 x 的導數。w 可以視為 y 的各分量的權重,也可以視為遙遠的損失函式 l 對 y 的偏導數(這正是函式說明文件的含義)。特別地,若 y 為標量,w 取預設值 1.0,才是按照我們通常理解的那樣,求 y 對 x 的導數。

由於當 x, y 都為張量時,\(\nabla_{\boldsymbol{x}} \boldsymbol{y}\) 不好求,因此退而求其次,利用遙遠的 loss 函式標量 l 來求 \(\nabla_{\boldsymbol{x}} l\)。不妨假設此時反向傳播過程已經計算完畢了 \(\nabla_{\boldsymbol{y}} l = [\frac{\mathrm{d} l}{\mathrm{d} y_{1}}, \frac{\mathrm{d} l}{\mathrm{d} y_{2}}, \ldots, \frac{\mathrm{d} l}{\mathrm{d} y_{n}}]\),此時還有另一個 Jocabi 矩陣是關於張量 y 中每一個元素和張量 x 中每一個元素的關係的,可以簡單地在這一步中利用梯度追蹤求出它:

\[\begin{bmatrix} \frac{\mathrm{d} y_1}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_1}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_1}{\mathrm{d} x_{m}} \\ \frac{\mathrm{d} y_2}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_2}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_2}{\mathrm{d} x_{m}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\mathrm{d} y_n}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_n}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_n}{\mathrm{d} x_{m}} \\ \end{bmatrix} \]

於是,接下來利用這兩個式子,就可以求出至關重要的 \(\nabla_{\boldsymbol{x}} l\) 了。

\[\nabla_{\boldsymbol{x}} l = [\frac{\mathrm{d} l}{\mathrm{d} x_{1}}, \frac{\mathrm{d} l}{\mathrm{d} x_{2}}, \ldots, \frac{\mathrm{d} l}{\mathrm{d} x_{m}}] = [\frac{\mathrm{d} l}{\mathrm{d} y_{1}}, \frac{\mathrm{d} l}{\mathrm{d} y_{2}}, \ldots, \frac{\mathrm{d} l}{\mathrm{d} y_{n}}] \begin{bmatrix} \frac{\mathrm{d} y_1}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_1}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_1}{\mathrm{d} x_{m}} \\ \frac{\mathrm{d} y_2}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_2}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_2}{\mathrm{d} x_{m}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\mathrm{d} y_n}{\mathrm{d} x_{1}} & \frac{\mathrm{d} y_n}{\mathrm{d} x_{2}} & \cdots & \frac{\mathrm{d} y_n}{\mathrm{d} x_{m}} \\ \end{bmatrix} \]

可以發現,本質上講,\(\nabla_{\boldsymbol{y}} l\) 就上文引用文字中的 w,或者說是 backward(gradient) 這個函式中的 gradient 引數。

2.5.3 分離計算

有時希望將某些計算移到記錄的計算圖之外。這裡可以利用 u = y.detach() 將 y 視為一個常數,然後丟棄計算圖中如何計算 y 的任何資訊。換言之,梯度不會向後流經 u 到 x。

2.5.4 Python 控制流的梯度計算

即使構建函式的計算圖需要透過 Python 控制流,也可以計算得到變數的梯度。

2.6 機率

呼叫下面的程式碼產生 \(x\) 個取樣 \(n\) 個樣本的張量。

import torch
from torch.distributions import multinomial
x = 5
n = 10
fair_probs = torch.ones([6]) / 6
multinomial.Multinomial(n, fair_probs).sample((x, ))
tensor([[1., 2., 2., 2., 1., 2.],
        [3., 2., 0., 2., 1., 2.],
        [2., 1., 2., 1., 2., 2.],
        [1., 3., 4., 1., 0., 1.],
        [2., 3., 2., 3., 0., 0.]])

2.7 查閱文件

2.7.1 查詢模組中的所有函式和類

可以呼叫 dir() 函式來查詢模組中的所有函式和類。例如:

import torch
print(dir(torch.distributions))
['AbsTransform', 'AffineTransform', 'Bernoulli', 'Beta', 'Binomial', 'CatTransform', 'Categorical', 'Cauchy', 'Chi2', 'ComposeTransform', 'ContinuousBernoulli', 'CorrCholeskyTransform', 'CumulativeDistributionTransform', 'Dirichlet', 'Distribution', 'ExpTransform', 'Exponential', 'ExponentialFamily', 'FisherSnedecor', 'Gamma', 'Geometric', 'Gumbel', 'HalfCauchy', 'HalfNormal', 'Independent', 'IndependentTransform', 'Kumaraswamy', 'LKJCholesky', 'Laplace', 'LogNormal', 'LogisticNormal', 'LowRankMultivariateNormal', 'LowerCholeskyTransform', 'MixtureSameFamily', 'Multinomial', 'MultivariateNormal', 'NegativeBinomial', 'Normal', 'OneHotCategorical', 'OneHotCategoricalStraightThrough', 'Pareto', 'Poisson', 'PowerTransform', 'RelaxedBernoulli', 'RelaxedOneHotCategorical', 'ReshapeTransform', 'SigmoidTransform', 'SoftmaxTransform', 'SoftplusTransform', 'StackTransform', 'StickBreakingTransform', 'StudentT', 'TanhTransform', 'Transform', 'TransformedDistribution', 'Uniform', 'VonMises', 'Weibull', 'Wishart', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__', 'bernoulli', 'beta', 'biject_to', 'binomial', 'categorical', 'cauchy', 'chi2', 'constraint_registry', 'constraints', 'continuous_bernoulli', 'dirichlet', 'distribution', 'exp_family', 'exponential', 'fishersnedecor', 'gamma', 'geometric', 'gumbel', 'half_cauchy', 'half_normal', 'identity_transform', 'independent', 'kl', 'kl_divergence', 'kumaraswamy', 'laplace', 'lkj_cholesky', 'log_normal', 'logistic_normal', 'lowrank_multivariate_normal', 'mixture_same_family', 'multinomial', 'multivariate_normal', 'negative_binomial', 'normal', 'one_hot_categorical', 'pareto', 'poisson', 'register_kl', 'relaxed_bernoulli', 'relaxed_categorical', 'studentT', 'transform_to', 'transformed_distribution', 'transforms', 'uniform', 'utils', 'von_mises', 'weibull', 'wishart']

可以忽略以“__”(雙下劃線)開始和結束的函式(它們時 Python 中的特殊物件)和以“_”(單下劃線)開始的函式(通常是內部函式)

2.7.2 查詢特定函式和類的用法

可以呼叫 help 函式檢視。例如取樣的多項式分佈函式:

from torch.distributions import multinomial
help(multinomial.Multinomial(1, fair_probs))
Help on Multinomial in module torch.distributions.multinomial object:

class Multinomial(torch.distributions.distribution.Distribution)
 |  Multinomial(total_count=1, probs=None, logits=None, validate_args=None)
 |  
 |  Creates a Multinomial distribution parameterized by :attr:`total_count` and
 |  either :attr:`probs` or :attr:`logits` (but not both). The innermost dimension of
 |  :attr:`probs` indexes over categories. All other dimensions index over batches.
 |  
 |  Note that :attr:`total_count` need not be specified if only :meth:`log_prob` is
 |  called (see example below)
 |  
 |  .. note:: The `probs` argument must be non-negative, finite and have a non-zero sum,
 |            and it will be normalized to sum to 1 along the last dimension. :attr:`probs`
 |            will return this normalized value.
 |            The `logits` argument will be interpreted as unnormalized log probabilities
 |            and can therefore be any real number. It will likewise be normalized so that
 |            the resulting probabilities sum to 1 along the last dimension. :attr:`logits`
 |            will return this normalized value.
 |  
 |  -   :meth:`sample` requires a single shared `total_count` for all
 |      parameters and samples.
 |  -   :meth:`log_prob` allows different `total_count` for each parameter and
 |      sample.

# 以下內容過長,故省略

或者在 jupyter notebook 中,可以使用?指令在另一個瀏覽器視窗中顯示文件。例如,list? 指令將建立與 help(list) 指令幾乎相同的內容,並在新的瀏覽器視窗中顯示它。 此外,如果我們使用兩個問號,如 list??,將顯示實現該函式的 Python 程式碼。

相關文章