在有限 computational budget 下,藉助 low-fidelity 模型提高精度

MoonOut發表於2023-04-15

  • 論文名稱:context-aware learning of hierarchies of low-fidelity models for multi-fidelity uncertainty quantification
  • 連結:https://www.sciencedirect.com/science/article/pii/S0045782523000312
  • 國際計算力學領域的頂級期刊《Computer Methods in Applied Mechanics and Engineering》(中科院一區 TOP,IF:6.756)

0 abstract

  • 背景:

    • multi-fidelity Monte Carlo 方法利用 low-fidelity and surrogate models 來減少方差(variance),使不確定性量化變得可行,儘管物理系統的 high-fidelity 數值模擬計算成本很高。
  • 工作簡述:

    • 我們提出了一種 context-aware 的 multi-fidelity Monte Carlo 方法,實現了訓練 low-fidelity 模型的成本和 Monte Carlo 取樣的成本之間的最佳平衡。

    • 當訓練 low-fidelity 模型時,我們考慮到了所學的 low-fidelity 模型將被使用的背景,即在 Monte Carlo 估計中減少方差,這使得它能夠在訓練和抽樣之間找到最佳的權衡,以最小化給定計算預算(computational budget)下估計器的均方誤差(mean-squared error)上限。

  • 繼承了之前的工作:

    • 它將以前開發的 context-aware bi-fidelity Monte Carlo 方法,推廣到多個模型的層次結構 和 更普遍的 low-fidelity 模型型別,如 sparse-grid(比如說 PDE 模擬的網格粒度粗一點)和 deep-network。
  • 文獻樹上的位置:

    • 我們與傳統的 surrogate modeling 和 model reduction 技術不一樣,後者構建 low-fidelity 模型的主要目的是為了很好地接近 high-fidelity 模型的輸出,通常忽略了所學模型在 upstream tasks 中的 context。
  • 實驗結果:

    • 用陀螺動力學模擬程式碼 Gene 進行的數值實驗表明,在做一個不確定性量化時,與 single-fidelity Monte Carlo 和 standard multi-fidelity estimators 相比,速度提高了兩個數量級:相當於在德州高階計算中心 Lonestar6 超級計算機的一個節點上,執行時間從 72 天減少到 4 小時。
  • literature:[1] 是一個 Multi-Fidelity 的 survey。其他 literature 懶得整理了。
  • motivation:如果沒有現成的 low-fidelity model,那麼就需要首先訓練得到它們,這可能會產生額外的計算成本,並且需要對 high-fidelity model 進行額外的評估,以產生訓練資料。
  • main idea:該方法將 ① 訓練多個 low-fidelity 模型的層次的成本 ② 蒙特卡洛取樣以獲得多保真估計器的成本進行 trade-off,在給定的 computational budget 下,使均方誤差(mean-squared error)的上限最小(context-aware:最大限度地減少蒙特卡羅估計的方差),而不是儘可能接近 high-fidelity model。
  • structure:
    • 2:preliminaries,介紹符號定義,傳統的 multi-fidelity Monte Carlo 演演算法,他們之前做的一個 bi-fidelity context-aware 演演算法。
    • 3:method。
    • 4:兩個 experiment,1 具有九個不確定引數的二維空間域上的熱傳導問題,2 具有不確定輸入的現實等離子體微擾動情況。數值結果的程式碼:https://github.com/ionutfarcas/context-aware-mfmc

2 背景 & 前情提要

2.1 背景:static multi-fidelity Monte Carlo estimation

  • \(f^{(0)}:X→Y\) 是一個輸入-輸出響應(input-output response),expensive to evaluate。輸入為 d 維,輸出為 1 維。
    • 對一個隨機變數 Θ=[Θ1,Θ2,...,Θd]^T,我們想估計 f^(0)(Θ) 的期望值 μ0。
  • MFMC(multi-fidelity Monte Carlo)estimator 包含 k+1 個模型,f^(0) high-fidelity,f^(1) ... f^(k) low-fidelity。
    • low-fidelity model 的精度 ρ:用 f^(j) 對 f^(0) 的 Pearson correlation coefficient 來定義:\(\rho_j = Cov[f^{(0)}, f^{(j)}]/σ_0σ_j\),其中 σ 是方差(variance)。設定 ρ_k+1 = 0。
    • models 的評估成本:w1, w2, ..., wk>0。歸一化 high-fidelity f^(0) 的評估成本 w0 = 1。
    • 假設模型們滿足排序:精度:1 = |ρ0|>|ρ1|>…>|ρk|;評估成本:\(w_{j-1}/w_{j}\gt[ρ^2_{j-1}-ρ^2_j]/[ρ^2_{j}-ρ^2_{j+1}]\)
  • 設 m_j 為 model f^(j) 的評估次數,0 ≤ m0 ≤ m1 ≤ … ≤ m_k。每一次評估都從獨立同分布(iid)的分佈 \(\pi\) 裡抽樣。
  • 於是 MFMC estimator 形式:\(\hat E^{MFMC} = \hat E_{m_0}^{(0)}+\sum_{j=1}^k\alpha_j(\hat E_{m_j}^{(j)}-\hat E_{m_{j-1}}^{(j)})\),其中 $\hat E_{m_j}^{(j)}=\frac 1 {m_0}f^{(0)}(\boldsymbol\theta_i) $ 即 f(θ) 的均值。
  • 總 computational cost: \(p=\sum_{j=0}^km_jw_j\)
  • 我們把 p 固定(budget),去找最優的 \(m_0^*, \cdots, m_k^*\) 以及 \(\alpha_0^*, \cdots, \alpha_k^*\),來讓 \(\hat E^{MFMC}\) 的方差最小。
    • \(\hat E^{MFMC}\) 的 MSE = \(\frac {\sigma_0^2}p\bigg(\sum_{j=0}^k\sqrt{w_j(\rho_j^2-\rho_{j+1}^2)}\bigg)^2\)
    • 其實是有閉式解的,見 [14]。

2.2 前情提要:context-aware bi-fidelity Monte Carlo estimator

  • 他們之前做的 context-aware bi-fidelity MC estimator 的工作是 [2]。

    • 改了一下 notation: low-fidelity model \(f_n^{(1)}\) 表示訓 f^(1) 需要用 high-fidelity f^(0) 的 n 個樣本。
    • 假設所有 low-fidelity model 都是用相同的 NN 來訓,唯一不同的是訓練樣本數量,那麼 Pearson 係數 ρ1 和評估成本 w1 都取決於 n。
    • 【這是假設 assumption】Pearson 係數的 bound:\(1-\rho_1^2(n)\le c_1n^{-\alpha}\);評估成本的 bound:\(w_1(n)\le c_2n^\beta\);其中 c1 c2 α>0 β>0 都是常數。
  • 我們的 budget 是 p。如果用 n 個樣本訓練 f^(1),那麼還有 p-n 的預算用於 f^(1) 的評估。

  • context-aware bi-fidelity MC estimator: \(\hat E_n^{CA-MFMC}=\hat E_{m_0^*}^{(0)}+\alpha_1^*(E_{m_1^*}^{(1)}-E_{m_0^*}^{(1)})\) ,決策變數為 \(m_0^*, m_1^*, α_1^*\) ,目標函式為最小化 \(\hat E_n^{CA-MFMC}\) 的 MSE。

    • \(\hat E_n^{\rm CA-MFMC}\) 的 MSE = \(\frac{\sigma_0^2}{p-n}\bigg(\sqrt{1-\rho_1^2(n)}+\sqrt{w_1(n)\rho_1^2(n)}\bigg)^2\) (公式 2.6)。
  • 如果預算 p 是固定的,n 可以透過最小化 MSE 的上界來選擇。

    • 上界: \(\rm {MSE}(\hat E_n^{CA-MFMC})\le\frac{2\sigma_0^2}{p-n}(c_1n^{-\alpha}+c_2n^\beta)\)
    • 工作 [2] 表明,在某些假設下,給定一個 p,存在一個唯一的 n∗,最小化(2.6);然而,n∗ 沒有閉式解,只能數值尋找。
    • 最佳的 n∗ 是獨立於預算 p 的。

3 method

3.1 一些關於 multi-fidelity models 的假設

  • 假設 1:存在 \(c_{a,j}\ge0\),函式 \(r_{a,j}(n_j)\) 值為正數、對 n_j 單調遞減、二次可微。限制精度(Pearson 係數): \(1-ρ_j^2(n_j)\le c_{a,j}r_{a,j}(n_j)\)
  • 假設 2:存在 \(c_{c,j}\ge0\),函式 \(r_{c,j}(n_j)\) 值為正數、對 n_j 單調遞增、二次可微。限制評估成本: \(w_j(n_j)\le c_{c,j}r_{c,j}(n_j)\)
  • 貌似,假設兩個 r 函式為: \(r_{a,j}=n^{-\alpha},r_{c,j}=n^\alpha,\alpha\gt0\)
  • 一個備註:事實上,如果一組資料拿去訓 f^(i),那麼也有可能可以拿去訓 f^(j);不過,更有可能的一種情況是,兩個模型結構不一樣,需要的訓練資料結構也不一樣,所以不能重用,所以,下文都不考慮樣本的重用。

3.2 只用一個 low-fidelity 模型:[2] 基礎上的改進

  • 首先,放縮 \(\rm MSE(\hat E_n^{CA-MFMC})\le\frac{2\sigma_0^2}{p-n}(c_{a,1}r_{a,1}(n_1)+c_{c,1}r_{c,1}(n_1))\),將它記為 u1。接下來,我們關心這個 upper bound 何時存在唯一的全域性最小值。
    • PS:證明直接看原文吧,本科高數難度。
  • 命題 1 :u1 何時存在唯一的全域性最小值:
    • 假設滿足 \(c_{a,1}r''_{a,1}(n_1)+c_{c,1}r''_{c,1}(n_1)\gt0\)【公式 (3.6)】。那麼,u1 具有唯一的全域性最小值 \(n_1^*\in[1,p-1]\)
  • 命題 2 :假設對於所有 \(n_1\in(0,\infty)\) 滿足 公式 (3.6),
    • 並且存在一個 \(\bar n_1\in(0,\infty)\) 使得 \(c_{a,1}r_{a,1}(\bar n_1)+c_{c,1}r'_{c,1}(\bar n_1)=0\)。那麼 \(\bar n_1\) 是唯一的,並且 \(n_1^*\le\max\{1,\bar n_1\}\)

3.3 context-aware multi-fidelity MC sampling

一種 sequential 訓練方法,來為 CA-MFMC estimator 擬合 hierarchies of low-fidelity models,其中每一步都實現了 training 和 sampling 之間的 optimal trade-off。

我主要關心 context-aware 是什麼東西。

  • 引理 1:在假設 1 假設 2 下,CA-MFMC estimator 的 MSE 的 upper bound:
    • \(\rm MSE(\hat E_{n_1,\cdots,n_k}^{CA-MFMC}) \le \frac{(k+1)\sigma_0^2}{p_{k-1}-n_k}(\kappa_{k-1}+\hat c_{a,k}r_{a,k}(n_k)+c_{c,k}r_{c,k}(n_k))\)
    • 其中 \(p_{k-1}=p-\sum_{j=1}^{k-1}n_j,~~p_0=p\)
    • \(\kappa_{k-1}=c_{a,1}r_{a,1}(n_1)+\sum_{j=1}^{k-2}c_{c,j}r_{c,j}(n_j)c_{a,j+1}r_{a,j+1}(n_{j+1}),~~\kappa_0=0\)
    • \(\hat c_{a,k} = c_{c,k-1}r_{c,k-1}(n_{k-1})c_{a,k},~~\hat c_{a,1} =c_{a,1}\)
    • (重申:n 是訓 low-fidelity model 的樣本數量)
    • 證明:直接用一個 平方和不等式 展開。
  • 看這個 upper bound 括號內加和的部分,\(\hat c_{a,k}\)\(κ_{k-1}\) 都僅依賴於 \(n_1, \cdots,n_{k-1}\),而 \(r_{a,k}(n_k),~r_{ck}(n_k)\) 僅依賴於 n_k。這啟發了一種 sequentially 向 CA-MFMC estimator 新增 low-fidelity model 的做法。
    • 給定 \(n_1, \cdots,n_{k-1}\),尋找 \(n_k\),使得 \(u_j(n_j;n_1, \cdots,n_{k-1}):[1,p_{j-1}-1]\rightarrow(0,\infty)\)\(u_j(n_j;n_1, \cdots,n_{k-1})=\frac1{p_{j-1}-n_j}(\kappa_{j-1}+\hat c_{a,j}r_{a,j}(n_j)+c_{c,k}r_{c,k}(n_j))\)
  • 命題 3:使用命題 1,即 \(n_1^*\) 是 u1 的全域性最小值。現在去考慮 j = 2,3,...,k。
    • \(\hat{c}_{a, j} r_{a, j}^{\prime \prime}\left(n_j\right)+c_{c, j} r_{c, j}^{\prime \prime}\left(n_j\right)>0\),則存在 u_j 的全域性最小值 \(n_j^* \in\left[1, p_{j-1}-1\right]\)
    • 證明好像跟命題 1 同理。
  • 命題 4:使用命題 1,即 \(n_j^*\) 是 u_j 的全域性最小值。
    • 若存在 \(\bar{n}_j \in(0, \infty)\) 使得 \(\hat{c}_{a, j} r_{a, j}^{\prime}\left(\bar{n}_j\right)+c_{c, j} r_{c, j}^{\prime}\left(\bar{n}_j\right)=0\),則有 \(n_j^* \leq \bar{n}_j\),即 \(n_j^*\) 的一個 upper bound。
    • 繼續跟命題 2 同理,歸納法。
  • 一個備註:models 的 hierarchy 必須滿足評估次數 m 遞減(2.1)。

啊…… 這就結束了?感覺看了一肚子數學…

4 experiment

圖挺好看的。

要趕著看 MFRL 了,不細看了。



相關文章