繞過直接數值模擬或實驗,生成擴散模型用於湍流研究

ScienceAI發表於2024-05-20

圖片

編輯 | 綠羅

瞭解湍流平流粒子的統計和幾何特性是一個具有挑戰性的問題,對於許多應用的建模、預測和控制至關重要。例如燃燒、工業混合、汙染物擴散、量子流體、原行星盤吸積和雲形成等。

儘管過去 30 年在理論、數值和實驗方面做出了很多努力,但現有模型還不能很好地再現湍流中粒子軌跡所表現出的統計和拓撲特性。

近日,義大利羅馬第二大學(University of Rome Tor Vergata)的研究人員,提出了一種基於最先進的擴散模型的機器學習方法,可以在高雷諾數的三維湍流中生成單粒子軌跡,從而繞過直接數值模擬或實驗來獲得可靠的拉格朗日資料的需要。

令人驚訝的是,該模型對極端事件表現出很強的通用性,產生了更高強度和稀有性的事件,但仍然符合實際統計資料。這為生成用於預訓練拉格朗日湍流的各種下游應用的合成高質量資料集鋪平了道路。

相關研究以《Synthetic Lagrangian turbulence by generative diffusion models》為題,於 2024 年 4 月 17 日釋出在《Nature Machine Intelligence》上。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00810-0

研究背景

拉格朗日湍流是與工程、生物流體、大氣、海洋和天體物理學中的分散和混合物理學相關的許多應用和基本問題的核心。

在過去的 30 年裡,科學家提出了許多不同的拉格朗日現象學模型。然而,儘管所有這些先前的嘗試都能夠很好地重現湍流統計的一些重要特徵,但仍然缺乏一種系統的方法來生成具有正確的多尺度統計的合成軌跡。

因此,需要新的方法來解決這個問題。機器學習方法在解決流體力學中的開放性問題方面顯示出強大的潛力。

考慮到現有技術,還缺乏基於方程和資料驅動的工具來生成 3D 單粒子或多粒子拉格朗日軌跡,這些軌跡具有與實驗和直接數值模擬 (DNS) 定量一致的統計和幾何特性。

圖片

圖示:DNS 和 DM 的比較。(來源:論文)

在各種湍流應用中,對合成生成高質量和高數量資料的需求至關重要,特別是在拉格朗日域中,即使只有一條軌跡也需要在巨大的空間域上再現整個尤拉場,這對於 DNS 來說通常是一項艱鉅或不可能的任務,對於實驗來說也是極其費力的。

圖片

圖示:加速度統計。(來源:論文)

基於擴散模型的機器學習方法

在此,研究人員提出了一種隨機資料驅動模型,能夠匹配高雷諾數下均勻和各向同性湍流中單粒子統計的數值和實驗資料。

該模型基於最先進的生成式擴散模型(DM)。研究訓練了兩個不同的 DM:DM-1c,它生成拉格朗日速度的單個分量;DM-3c,它同時輸出所有三個相關分量。

圖片

圖示:DM 說明及其後向生成過程的深入研究。(來源:論文)

所提合成生成協議(protocol)能夠在整個可用頻率範圍內重現速度增量的縮放,並在原始訓練資料中為所有統計收斂矩達到八階。此外,該協議成功捕獲了高達 60 個標準差甚至更高的加速度波動,包括三個速度分量之間的互相關性。

圖片

圖示:DM 訓練協議。(來源:論文)

研究人員使用從 Rλ ≃ 310 處的 DNS 獲得的高質量資料來訓練模型。結果還顯示出與四階、六階和八階廣義平坦度的數值實值資料非常吻合,由於間歇性波動的存在,其強度比高斯統計量存在時的期望值大一個數量級。

值得注意的是,模型表現出很強的泛化特性,能夠合成訓練階段從未遇到過的強度的事件。這些極端波動是由小規模渦陷和急轉彎軌跡造成的,具有前所未有的偏移和稀有性,始終遵循訓練資料中固有的現實統計資料。

圖片

圖示:速度增量的多尺度統計特性。(來源:論文)

圖片

圖示:逐個尺度的間歇性特性。(來源:論文)

模型展示了跨時間尺度重現大多數統計基準的能力,包括速度增量的肥尾分佈、反常冪律和耗散尺度周圍增加的間歇性。在耗散標度以下觀察到輕微偏差,特別是在加速度和平坦度統計資料中。

泛化性和可解釋性

DM 顯示出生成具有極其強烈事件的軌跡的能力,從而泛化超出訓練階段吸收的資訊,同時仍然保留現實的統計特性。與從較小的訓練資料集測量的結果相比,從 DM 生成的較大資料集測量的機率密度函式(PDF)的擴充套件尾的驚人觀察清楚地說明了這一點。

DM 學習的用於生成正確的多次波動集的基本物理模型仍然難以捉摸。DM 基於巢狀非線性高斯去噪,本質上類似於用於建立多重分形訊號和測量的波動的多尺度累積。

綜合隨機生成模型具有顯著的優勢。它們(1)提供對開放資料的訪問,而不會出現與實際資料使用相關的版權或道德問題;(2)能夠生成高質量和高數量的資料集,這些資料集可用於訓練需要此類資料作為輸入的其他模型。

最終目標是提供合成資料集,使下游應用程式的新模型能夠達到更高的準確性,用合成預訓練取代真實資料預訓練的必要性。

注:封面來自網路

相關文章