0607-引數初始化策略

二十三歲的有德發表於2021-04-25

原文網址 : https://www.cnblogs.com/nickchen121/p/14701862.html

0607-引數初始化策略

pytorch完整教程目錄：https://www.cnblogs.com/nickchen121/p/14662511.html

一、引數初始化策略概述

深度學習中，一個好的引數初始化策略可以讓模型更快地收斂，而一個差的引數初始化策略可能會讓模型很難進行收斂，反覆震盪甚至崩潰。

nn.Module 中的引數一般都採取了比較合適的初始化策略，因此一般我們不需要考慮。不過我們也可以自定義一個引數初始化策略代替系統預設的，比如當我們使用 Parameter 時，由於 t.Tensor() 返回的是記憶體中的隨機數，很可能會有極大值，這會時訓練網路時造成溢位或者梯度小時，因此此時自定義一個引數的初始化策略尤為重要。

torch 中的 nn.init 模組專門為初始化設計，實現了一些常用的初始化側路了，而且就算如果某種初始化策略 nn.init 不提供，使用者也可以自己直接初始化。

二、利用 nn.init 初始化

Glorot 正態分佈初始化方法，也稱作 Xavier 正態分佈初始化，引數由 0 均值，標準差為 \(\sqrt{\frac{2}{(fan_{in} + fan_{out}})}\) 的正態分佈產生，其中\(fan_{in}\) 和 \(fan_{out}\) 是分別權值張量的輸入和輸出元素數目。這種初始化同樣是為了保證輸入輸出的方差不變，但是原論文中 [1] 是基於線性函式推導的，同時在 tanh 啟用函式上有很好的效果，但不適用於ReLU啟用函式。

\[std=gain×\sqrt{\frac{2}{fan_{in}+fan_{out}}} \]

看不懂就別看了，我都沒仔細看，百度 copy 來的。

參考：[1] Understanding the difficulty of training deep feedforward neural networks — Glorot, X. & Bengio, Y. (2010)

import torch as t
from torch import nn
from torch.nn import init
linear = nn.Linear(3, 4)

t.manual_seed(1)
# 等價於 linear.weight.data.normal_(0, std)
init.xavier_normal_(linear.weight)  #

Parameter containing:
tensor([[ 0.3535,  0.1427,  0.0330],
        [ 0.3321, -0.2416, -0.0888],
        [-0.8140,  0.2040, -0.5493],
        [-0.3010, -0.4769, -0.0311]], requires_grad=True)

三、直接初始化

import math
t.manual_seed(1)

# xavier初始化的計算公式
std = math.sqrt(2) / math.sqrt(7.)
linear.weight.data.normal_(0, std)

tensor([[ 0.3535,  0.1427,  0.0330],
        [ 0.3321, -0.2416, -0.0888],
        [-0.8140,  0.2040, -0.5493],
        [-0.3010, -0.4769, -0.0311]])

# 對模型的所有引數進行初始化
for name, params in net.named_parameters():
    if name.find('linear') != -1:  # 對所有全連線層的引數進行初始化
        # init linear
        params[0]  # weight
        params[1]  # bias
    elif name.find('conv') != -1:
        pass
    elif name.find('norm') != -1:
        pass

---------------------------------------------------------------------------

NameError                                 Traceback (most recent call last)

<ipython-input-3-78d2673ab1d6> in <module>
      1 # 對模型的所有引數進行初始化
----> 2 for name, params in net.named_parameters():
      3     if name.find('linear') != -1:  # 對所有全連線層的引數進行初始化
      4         # init linear
      5         params[0]  # weight


NameError: name 'net' is not defined

16 初始化引數
2020-03-24
2.6 指定初始化引數
2020-03-09
2.7.5 SPFILE初始化引數
2020-03-13
2.6.9.1 關於 COMPATIBLE初始化引數
2020-03-09
2.6.8.2 UNDO_TABLESPACE 初始化引數
2020-03-09
2.6.8.1 UNDO_MANAGEMENT 初始化引數
2020-03-09
2.6.2.2 初始化引數DB_DOMAIN
2020-03-09
AI
2.6.2.1 初始化引數DB_NAME
2020-03-09
2.6.1.1 初始化引數檔案示例
2020-03-09
2.7.7 清除初始化引數的值
2020-03-13
2.7.6 改變初始化引數值
2020-03-13
所有初始化引數說明（轉）
2019-07-02
Oracle初始化引數的來源
2019-06-15
Oracle
MogDB 2.1.1 初始化引數概要說明
2024-03-30
2.6.5.1 DB_BLOCK_SIZE 初始化引數
2020-03-09
BloC
4.2.1.3 學習如何管理初始化引數
2020-03-17
PyTorch常用引數初始化方法詳解
2022-03-08
PyTorch
webpack 流程解析（2）：引數初始化完成
2021-10-14
Web
java 執行緒池的初始化引數解釋和引數設定
2018-06-22
Java執行緒
2.4.5 Step 4: 建立初始化引數檔案
2020-03-02
2.6.1.2 平文字初始化引數檔案格式
2020-03-09
初始化引數遊標之cursor_sharing
2020-07-22
未初始化變數引發執行時故障
2019-03-27
變數
2.7.6.2 設定或修改初始化引數的值
2020-03-13
2.7.6.1 關於改變初始化引數的值
2020-03-13
3.1.2 啟動時指定資料庫初始化引數
2020-03-14
資料庫
pytorch和tensorflow的愛恨情仇之引數初始化
2020-10-07
PyTorch
全景拍攝“快門時間”相機引數設定策略
2018-10-15
VnTrader 實現CTA策略初始化完成後，自動啟動該策略
2021-11-19
一個小技巧，VNPY策略引數優化時候顯示完成數量和總數量
2020-09-11
優化
3.1.2.3 通過 SRVCTL 使用非預設初始化引數啟動資料庫
2020-03-14
資料庫
什麼是請求引數、表單引數、url引數、header引數、Cookie引數？一文講懂
2022-05-22
HeaderCookie
混合動力客車整車控制策略及總成引數匹配研究
2020-11-06
第3節：GTID模組初始化簡介和引數binlog_gtid_simple_recovery
2019-09-20
3.1.2.1 關於資料庫初始化引數檔案和啟動的關係
2020-03-14
資料庫
python疑問5：位置引數，預設引數，可變引數，關鍵字引數，命名關鍵字引數區別
2019-02-16
Python
JVM面試問題系列：JVM 配置常用引數和常用 GC 調優策略
2019-03-22
JVM面試GC
《Mybatis 手擼專欄》第10章：使用策略模式，呼叫引數處理器
2022-05-30
MyBatis模式

0607-引數初始化策略

0607-引數初始化策略

一、引數初始化策略概述

二、利用 nn.init 初始化

三、直接初始化

相關文章