在有限 computational budget 下，藉助 low-fidelity 模型提高精度

MoonOut發表於2023-04-15

原文網址 : https://www.cnblogs.com/moonout/p/17321665.html

IDE模型

論文名稱：context-aware learning of hierarchies of low-fidelity models for multi-fidelity uncertainty quantification
連結：https://www.sciencedirect.com/science/article/pii/S0045782523000312
國際計算力學領域的頂級期刊《Computer Methods in Applied Mechanics and Engineering》（中科院一區 TOP，IF：6.756）

0 abstract

背景：
- multi-fidelity Monte Carlo 方法利用 low-fidelity and surrogate models 來減少方差（variance），使不確定性量化變得可行，儘管物理系統的 high-fidelity 數值模擬計算成本很高。
工作簡述：
- 我們提出了一種 context-aware 的 multi-fidelity Monte Carlo 方法，實現了訓練 low-fidelity 模型的成本和 Monte Carlo 取樣的成本之間的最佳平衡。
- 當訓練 low-fidelity 模型時，我們考慮到了所學的 low-fidelity 模型將被使用的背景，即在 Monte Carlo 估計中減少方差，這使得它能夠在訓練和抽樣之間找到最佳的權衡，以最小化給定計算預算（computational budget）下估計器的均方誤差（mean-squared error）上限。
繼承了之前的工作：
- 它將以前開發的 context-aware bi-fidelity Monte Carlo 方法，推廣到多個模型的層次結構和更普遍的 low-fidelity 模型型別，如 sparse-grid（比如說 PDE 模擬的網格粒度粗一點）和 deep-network。
文獻樹上的位置：
- 我們與傳統的 surrogate modeling 和 model reduction 技術不一樣，後者構建 low-fidelity 模型的主要目的是為了很好地接近 high-fidelity 模型的輸出，通常忽略了所學模型在 upstream tasks 中的 context。
實驗結果：
- 用陀螺動力學模擬程式碼 Gene 進行的數值實驗表明，在做一個不確定性量化時，與 single-fidelity Monte Carlo 和 standard multi-fidelity estimators 相比，速度提高了兩個數量級：相當於在德州高階計算中心 Lonestar6 超級計算機的一個節點上，執行時間從 72 天減少到 4 小時。

literature：[1] 是一個 Multi-Fidelity 的 survey。其他 literature 懶得整理了。
motivation：如果沒有現成的 low-fidelity model，那麼就需要首先訓練得到它們，這可能會產生額外的計算成本，並且需要對 high-fidelity model 進行額外的評估，以產生訓練資料。
main idea：該方法將 ① 訓練多個 low-fidelity 模型的層次的成本 ② 蒙特卡洛取樣以獲得多保真估計器的成本進行 trade-off，在給定的 computational budget 下，使均方誤差（mean-squared error）的上限最小（context-aware：最大限度地減少蒙特卡羅估計的方差），而不是儘可能接近 high-fidelity model。
structure：
- 2：preliminaries，介紹符號定義，傳統的 multi-fidelity Monte Carlo 演演算法，他們之前做的一個 bi-fidelity context-aware 演演算法。
- 3：method。
- 4：兩個 experiment，1 具有九個不確定引數的二維空間域上的熱傳導問題，2 具有不確定輸入的現實等離子體微擾動情況。數值結果的程式碼：https://github.com/ionutfarcas/context-aware-mfmc

2 背景 & 前情提要

2.1 背景：static multi-fidelity Monte Carlo estimation

$f^{(0)}:X→Y$ 是一個輸入-輸出響應（input-output response），expensive to evaluate。輸入為 d 維，輸出為 1 維。
- 對一個隨機變數 Θ=[Θ1,Θ2,...,Θd]^T，我們想估計 f^(0)(Θ) 的期望值 μ0。
MFMC（multi-fidelity Monte Carlo）estimator 包含 k+1 個模型，f^(0) high-fidelity，f^(1) ... f^(k) low-fidelity。
- low-fidelity model 的精度 ρ：用 f^(j) 對 f^(0) 的 Pearson correlation coefficient 來定義：$\rho_j = Cov[f^{(0)}, f^{(j)}]/σ_0σ_j$，其中 σ 是方差（variance）。設定 ρ_k+1 = 0。
- models 的評估成本：w1, w2, ..., wk＞0。歸一化 high-fidelity f^(0) 的評估成本 w0 = 1。
- 假設模型們滿足排序：精度：1 = |ρ0|＞|ρ1|＞…＞|ρk|；評估成本：$w_{j-1}/w_{j}\gt[ρ^2_{j-1}-ρ^2_j]/[ρ^2_{j}-ρ^2_{j+1}]$。
設 m_j 為 model f^(j) 的評估次數，0 ≤ m0 ≤ m1 ≤ … ≤ m_k。每一次評估都從獨立同分布（iid）的分佈 $\pi$ 裡抽樣。
於是 MFMC estimator 形式：$\hat E^{MFMC} = \hat E_{m_0}^{(0)}+\sum_{j=1}^k\alpha_j(\hat E_{m_j}^{(j)}-\hat E_{m_{j-1}}^{(j)})$，其中 $\hat E_{m_j}^{(j)}=\frac 1 {m_0}f^{(0)}(\boldsymbol\theta_i) $ 即 f(θ) 的均值。
總 computational cost： $p=\sum_{j=0}^km_jw_j$。
我們把 p 固定（budget），去找最優的 $m_0^*, \cdots, m_k^*$ 以及 $\alpha_0^*, \cdots, \alpha_k^*$，來讓 $\hat E^{MFMC}$ 的方差最小。
- $\hat E^{MFMC}$ 的 MSE = $\frac {\sigma_0^2}p\bigg(\sum_{j=0}^k\sqrt{w_j(\rho_j^2-\rho_{j+1}^2)}\bigg)^2$。
- 其實是有閉式解的，見 [14]。

2.2 前情提要：context-aware bi-fidelity Monte Carlo estimator

他們之前做的 context-aware bi-fidelity MC estimator 的工作是 [2]。
- 改了一下 notation： low-fidelity model $f_n^{(1)}$ 表示訓 f^(1) 需要用 high-fidelity f^(0) 的 n 個樣本。
- 假設所有 low-fidelity model 都是用相同的 NN 來訓，唯一不同的是訓練樣本數量，那麼 Pearson 係數 ρ1 和評估成本 w1 都取決於 n。
- 【這是假設 assumption】Pearson 係數的 bound：$1-\rho_1^2(n)\le c_1n^{-\alpha}$；評估成本的 bound：$w_1(n)\le c_2n^\beta$；其中 c1 c2 α＞0 β＞0 都是常數。
我們的 budget 是 p。如果用 n 個樣本訓練 f^(1)，那麼還有 p-n 的預算用於 f^(1) 的評估。
context-aware bi-fidelity MC estimator： $\hat E_n^{CA-MFMC}=\hat E_{m_0^*}^{(0)}+\alpha_1^*(E_{m_1^*}^{(1)}-E_{m_0^*}^{(1)})$ ，決策變數為 $m_0^*, m_1^*, α_1^*$ ，目標函式為最小化 $\hat E_n^{CA-MFMC}$ 的 MSE。
- $\hat E_n^{\rm CA-MFMC}$ 的 MSE = $\frac{\sigma_0^2}{p-n}\bigg(\sqrt{1-\rho_1^2(n)}+\sqrt{w_1(n)\rho_1^2(n)}\bigg)^2$ （公式 2.6）。
如果預算 p 是固定的，n 可以透過最小化 MSE 的上界來選擇。
- 上界： $\rm {MSE}(\hat E_n^{CA-MFMC})\le\frac{2\sigma_0^2}{p-n}(c_1n^{-\alpha}+c_2n^\beta)$ 。
- 工作 [2] 表明，在某些假設下，給定一個 p，存在一個唯一的 n∗，最小化(2.6)；然而，n∗ 沒有閉式解，只能數值尋找。
- 最佳的 n∗ 是獨立於預算 p 的。

3 method

3.1 一些關於 multi-fidelity models 的假設

假設 1：存在 $c_{a,j}\ge0$，函式 $r_{a,j}(n_j)$ 值為正數、對 n_j 單調遞減、二次可微。限制精度（Pearson 係數）： $1-ρ_j^2(n_j)\le c_{a,j}r_{a,j}(n_j)$。
假設 2：存在 $c_{c,j}\ge0$，函式 $r_{c,j}(n_j)$ 值為正數、對 n_j 單調遞增、二次可微。限制評估成本： $w_j(n_j)\le c_{c,j}r_{c,j}(n_j)$。
貌似，假設兩個 r 函式為： $r_{a,j}=n^{-\alpha},r_{c,j}=n^\alpha,\alpha\gt0$ 。
一個備註：事實上，如果一組資料拿去訓 f^(i)，那麼也有可能可以拿去訓 f^(j)；不過，更有可能的一種情況是，兩個模型結構不一樣，需要的訓練資料結構也不一樣，所以不能重用，所以，下文都不考慮樣本的重用。

3.2 只用一個 low-fidelity 模型：[2] 基礎上的改進

首先，放縮 $\rm MSE(\hat E_n^{CA-MFMC})\le\frac{2\sigma_0^2}{p-n}(c_{a,1}r_{a,1}(n_1)+c_{c,1}r_{c,1}(n_1))$，將它記為 u1。接下來，我們關心這個 upper bound 何時存在唯一的全域性最小值。
- PS：證明直接看原文吧，本科高數難度。
命題 1 ：u1 何時存在唯一的全域性最小值：
- 假設滿足 $c_{a,1}r''_{a,1}(n_1)+c_{c,1}r''_{c,1}(n_1)\gt0$【公式 (3.6)】。那麼，u1 具有唯一的全域性最小值 $n_1^*\in[1,p-1]$。
命題 2 ：假設對於所有 $n_1\in(0,\infty)$ 滿足公式 (3.6)，
- 並且存在一個 $\bar n_1\in(0,\infty)$ 使得 $c_{a,1}r_{a,1}(\bar n_1)+c_{c,1}r'_{c,1}(\bar n_1)=0$。那麼 $\bar n_1$ 是唯一的，並且 $n_1^*\le\max\{1,\bar n_1\}$。

3.3 context-aware multi-fidelity MC sampling

一種 sequential 訓練方法，來為 CA-MFMC estimator 擬合 hierarchies of low-fidelity models，其中每一步都實現了 training 和 sampling 之間的 optimal trade-off。

我主要關心 context-aware 是什麼東西。

引理 1：在假設 1 假設 2 下，CA-MFMC estimator 的 MSE 的 upper bound：
- $\rm MSE(\hat E_{n_1,\cdots,n_k}^{CA-MFMC}) \le \frac{(k+1)\sigma_0^2}{p_{k-1}-n_k}(\kappa_{k-1}+\hat c_{a,k}r_{a,k}(n_k)+c_{c,k}r_{c,k}(n_k))$ 。
- 其中 $p_{k-1}=p-\sum_{j=1}^{k-1}n_j,~~p_0=p$ ，
- $\kappa_{k-1}=c_{a,1}r_{a,1}(n_1)+\sum_{j=1}^{k-2}c_{c,j}r_{c,j}(n_j)c_{a,j+1}r_{a,j+1}(n_{j+1}),~~\kappa_0=0$ ，
- $\hat c_{a,k} = c_{c,k-1}r_{c,k-1}(n_{k-1})c_{a,k},~~\hat c_{a,1} =c_{a,1}$ 。
- （重申：n 是訓 low-fidelity model 的樣本數量）
- 證明：直接用一個平方和不等式展開。
看這個 upper bound 括號內加和的部分，$\hat c_{a,k}$ 和 $κ_{k-1}$ 都僅依賴於 $n_1, \cdots,n_{k-1}$，而 $r_{a,k}(n_k),~r_{ck}(n_k)$ 僅依賴於 n_k。這啟發了一種 sequentially 向 CA-MFMC estimator 新增 low-fidelity model 的做法。
- 給定 $n_1, \cdots,n_{k-1}$，尋找 $n_k$，使得 $u_j(n_j;n_1, \cdots,n_{k-1}):[1,p_{j-1}-1]\rightarrow(0,\infty)$，$u_j(n_j;n_1, \cdots,n_{k-1})=\frac1{p_{j-1}-n_j}(\kappa_{j-1}+\hat c_{a,j}r_{a,j}(n_j)+c_{c,k}r_{c,k}(n_j))$。
命題 3：使用命題 1，即 $n_1^*$ 是 u1 的全域性最小值。現在去考慮 j = 2,3,...,k。
- 若 $\hat{c}_{a, j} r_{a, j}^{\prime \prime}\left(n_j\right)+c_{c, j} r_{c, j}^{\prime \prime}\left(n_j\right)>0$，則存在 u_j 的全域性最小值 $n_j^* \in\left[1, p_{j-1}-1\right]$。
- 證明好像跟命題 1 同理。
命題 4：使用命題 1，即 $n_j^*$ 是 u_j 的全域性最小值。
- 若存在 $\bar{n}_j \in(0, \infty)$ 使得 $\hat{c}_{a, j} r_{a, j}^{\prime}\left(\bar{n}_j\right)+c_{c, j} r_{c, j}^{\prime}\left(\bar{n}_j\right)=0$，則有 $n_j^* \leq \bar{n}_j$，即 $n_j^*$ 的一個 upper bound。
- 繼續跟命題 2 同理，歸納法。
一個備註：models 的 hierarchy 必須滿足評估次數 m 遞減（2.1）。

啊…… 這就結束了？感覺看了一肚子數學…

4 experiment

圖挺好看的。

要趕著看 MFRL 了，不細看了。

IBM：如何藉助天氣洞察提高經濟效益（附下載）
2018-09-19
IBM
藉助Docker，在win10下編碼，一鍵在Linux下測試
2019-05-16
DockerWin10Linux
案例分享：FanHero藉助Cloudflare 等候室提高使用者體驗
2022-03-03
Cloud
如何藉助分散式儲存 JuiceFS 加速 AI 模型訓練
2023-04-26
分散式UIAI模型
藉助babel理解jsx
2019-01-21
BabelJS
零售行業如何藉助數字化轉型提高業務？
2022-06-06
行業
現在你可以藉助 Insync 在 Linux 中原生使用 OneDrive
2019-10-08
Linux
藉助SpotBugs將程式錯誤扼殺在搖籃中
2022-06-12
智慧定價模型：藉助API實時更新商品價格資訊
2024-02-02
模型API
COMPSCI 369 Computational Biology
2024-06-10
本地生活服務商家藉助短影片本地生活行業優勢提高銷量！
2022-08-20
行業
《State of Surivial》是怎樣藉助本地化在日本翻身的？
2021-10-26
藉助dockerSwarm搭建叢集部署
2020-04-07
DockerSwarm
政府單位如何藉助電子政務oa辦公軟體提高效率？
2020-03-02
藉助 DSL 來簡化 Loadgen 配置
2023-11-07
藉助Radamsa變異資料（初探）
2023-02-01
DDD中如何藉助行業術語突破性發現領域模型？ - Mathias
2021-09-14
行業模型
IBM：藉助P-TECH教育模式—應對技能挑戰（附下載）
2018-07-18
IBM模式
AWS Lambda 藉助 Serverless Framework，迅速起飛
2020-10-28
ServerFramework
MindSpore模型精度調優實戰：如何更快定位精度問題
2021-09-11
模型
iOS後臺模式藉助位置更新實現
2019-03-04
iOS模式
藉助ai來分析程式碼，理解程式碼
2024-04-02
AI
藉助AI力量，谷歌解開生命奧祕？
2020-01-28
AI谷歌
藉助 zope.interface 深入瞭解 Python 介面
2020-01-05
Python
藉助AI助手如何高效排查SQL問題
2024-11-29
AISQL
藉助AI助手如何高效閱讀原始碼
2024-12-03
AI原始碼
根據happens-before法則藉助同步
2022-01-19
APP
藉助CRM系統提升企業利潤
2022-08-20
MobileBERT：一個在資源有限裝置上使用的BERT模型
2020-08-21
模型
藉助 Valve 的新編譯器，Linux 遊戲在 AMD GPU 中獲得了效能提升
2019-07-10
編譯Linux遊戲GPU
Go藉助PProf的一次效能優化
2019-03-25
Go優化
藉助node.js + mysql 學習基礎ajax~
2019-02-16
Node.jsMySql
IBM藉助企業設計轉型的案例
2024-05-15
IBM
藉助 webpack 對專案進行分析優化
2018-04-19
Web優化
藉助 :has 實現3d輪播圖
2022-11-24
3D
怎樣藉助小紅書給微信引流？
2022-06-23
Linux下rz/sz安裝及使用方法（不需要藉助ftp傳輸工具）
2018-08-12
LinuxFTP
MindSpore模型精度調優實戰：常用的定位精度除錯調優思路
2021-07-13
模型除錯