繼上月末連發兩篇論文(擴散模型不一定需要噪聲條件和分形生成模型)之後,大神何愷明又出新作了!這次的主題是「用於物理推理的去噪哈密頓網路」。
物理推理包含推斷、預測和解釋動態系統行為的能力,這些是科學研究的基礎。應對此類挑戰的機器學習框架通常被期望超越僅僅記憶資料分佈的做法,從而維護物理定律,解釋能量和力的關係,並納入超越純資料驅動模型的結構化歸納偏差。科學的機器學習透過將物理約束直接嵌入神經網路架構(通常透過顯式構建物理運算元)來解決這一挑戰。
不過,這些方法面臨兩個關鍵限制。其一,這些方法主要學習區域性時序更新(預測從一個時間步驟到下一個時間步驟的狀態轉換),而不捕獲遠端依賴或抽象的系統級互動。其二,這些方法主要關注前向模擬,從初始條件預測系統的演變,而在很大程度上忽略了超解析度、軌跡修復或從稀疏觀測中進行引數估計等互補任務。
為了解決這些限制,何愷明等來自 MIT、史丹佛大學等機構的研究者提出了去噪哈密頓網路(Denoising Hamiltonian Network,DHN),這是一個將哈密頓力學泛化到神經運算元的框架。
論文標題:Denoising Hamiltonian Network for Physical Reasoning 論文地址:https://arxiv.org/pdf/2503.07596
下圖 1 為去噪哈密頓網路(DHN)概覽。
研究者表示,DHN 在利用神經網路靈活性的同時實施物理約束,帶來以下三項關鍵創新。
首先,DHN 透過將系統狀態組合視為 token 來擴充套件哈密頓神經運算元以捕獲非區域性時間關係,從而能夠從整體上對系統動態進行推理,而不是分步推理。
其次,DHN 整合了一個去噪目標,其靈感來自去噪擴散模型,用於減輕數值積分誤差。透過迭代地將其預測細化為物理上有效的軌跡,DHN 提高了長期預測的穩定性,同時保持了在不同噪聲條件下的適應性。此外,透過利用不同的噪聲模式,DHN 支援在各種任務場景中進行靈活的訓練和推理。
最後,研究者引入了全域性條件以促進多系統建模。一個共享的全域性潛在程式碼被用來對系統特定屬性(例如質量、擺長)進行編碼,使 DHN 能夠在統一框架下對異構物理系統進行建模,同時保持底層動態的解耦表示。
在實驗部分,為了評估 DHN 的通用性,研究者透過三個不同的推理任務對其進行了測試,包括軌跡預測和完成、從部分觀察中推斷物理引數,以及透過漸進式超解析度插入稀疏軌跡。
總之,這項工作推動了在區域性時序關係之外嵌入物理約束的更通用架構的發展,為更廣泛的物理推理應用開闢了道路,超越了傳統的前向模擬和下一狀態預測。
論文一作 Congyue Deng 發推表示,過去透過擴充套件卷積運算元使其從低階影像處理上升到高階視覺推理,如今 DHN 可以透過擴充套件物理運算元來實現更高階的物理推理。
同時,她也提出了三個開放性問題,包括「如何定義深度學習中的物理推理」、「什麼是物理模擬」、「神經網路應該具備哪些物理屬性」。她說到,DHN 不是最終的解決方案,只是一個開始。
方法概覽
本文的目標是設計更通用的神經運算元,既遵循物理約束,又釋放神經網路作為可最佳化黑盒函式的靈活性和表現力。研究者首先問了一個問題:除了下一狀態預測之外,我們還能建模哪些「物理關係」?
下圖 2 比較了三種不使用機器學習來建模物理系統的經典方法,包括如下:
全域性解析解決方案。對於具有規則結構的簡單系統,人們通常直接得出閉式解。 PDE + 數值積分,在更復雜的環境中,如果沒有閉式解,標準做法是將系統的動態過程表示為 PDE,然後透過數值方法逐步求解。 直接全域性關係。在某些複雜系統中(例如沒有耗散力的純保守系統),時間上相距較遠的狀態可以直接使用全域性守恆定律(例如能量守恆定律)來關聯。
圖 3 展示了一個離散的哈密頓網路(右),用於計算時間步長 t_0 和 t_1 之間的狀態關係。研究者主要使用哈密頓 H^+(右)來描述他們的網路設計。
去噪哈密頓網路
掩碼建模和去噪。研究者希望哈密頓塊不僅能對跨時間步的狀態關係進行建模,還能學習每個時間步的狀態最佳化,以便進行推理。為此,他們採用了掩碼建模策略,在訓練網路時遮蔽掉部分輸入狀態(圖 5)。
這裡不是簡單地遮蔽輸入狀態,而是用不同幅度的噪聲取樣對輸入狀態進行擾動(圖 5)。這種策略可確保模型學會迭代改進預測,使其能夠從損壞或不完整的觀測結果中恢復有物理意義的狀態。
具體來說,研究者定義了一個噪聲水平遞增的序列
以阻塞輸入狀態為例,研究者隨機取樣高斯噪聲
和每個狀態的噪聲規模
。
在實驗中,去噪步數設定為 10。在推理時,研究者用一連串同步於所有未知狀態的遞減噪聲尺度對未知狀態進行逐步去噪。他們同時應用和
來迭代更新
和
。
不同的掩碼模式透過在訓練過程中設計不同的掩碼模式,可以根據不同的任務制定靈活的推理策略。圖 6 展示了三種不同的掩碼模式:透過遮蔽一個資料塊的最後幾個狀態來實現自迴歸,這類似於利用前向建模進行下一狀態預測的物理模擬;透過掩碼一個資料塊中間的狀態來實現超解析度,這可應用於資料插值;更廣泛地說,包括隨機掩碼在內的任意順序掩碼,掩碼模式根據任務要求進行自適應設計。
網路架構
純解碼器 Transformer。對於每個哈密頓塊,網路輸入是不同時間步的棧、
棧,研究者還引入了整個軌跡的全域性潛碼 z 作為條件。如圖 7 所示,研究者採用了一種純解碼器 Transformer,它類似於類似於 GPT 的純解碼器架構,但沒有因果注意力掩碼。
研究者將所有輸入 token作為長度為 2b + 1 的序列應用了自注意力。全域性潛碼 z 作為查詢 token,用於輸出哈密頓值 H。還透過在位置嵌入中新增每個狀態的噪聲標度,將其編碼到網路中。在實驗中,研究者實現了一個適合單 GPU 的簡單雙層 Transformer。
自解碼。研究者沒有依賴編碼器網路從軌跡資料中推斷全域性潛碼,而是採用了自解碼器框架,為每條軌跡維護一個可學習的潛碼 z(圖 8)。這種方法允許模型高效地儲存和完善特定系統的嵌入,而不需要單獨的編碼過程。在訓練過程中,研究者會聯合最佳化網路權重和程式碼庫。訓練結束後,給定一個新軌跡,凍結網路權重,只最佳化新軌跡的潛碼。
實驗
研究者用兩種設定來評估模型:單擺和雙擺。兩種設定都包含一個模擬軌跡資料集。單擺是一個週期性系統,每個狀態下的總能量都可以透過(q, p)直接計算出來,因此此處用它來評估模型的能量守恆能力。雙擺是一個混沌系統,微小的擾動會導致未來狀態的偏離。
他們用與圖 6 中三種不同掩碼模式相對應的三種不同任務來測試模型。它們分別是:(i) 用於前向模擬的下一狀態預測(自迴歸);(ii) 用於物理引數推斷的隨機掩蔽表示學習;以及 (iii) 用於軌跡插值的漸進式超解析度。這些任務突出了 DHN 對各種物理推理挑戰的適應性,測試了它在不同觀測限制條件下生成、推斷和插值系統動態的能力。
前向模擬
擬合已知軌跡
圖 9 顯示了採用不同塊大小的模型與採用不同數值積分器的 HNN 的比較結果。左圖和右圖分別是單擺和雙擺系統在每個時間步的 q 預測值的均方誤差(MSE)。中間的圖顯示了一個示例軌跡上的平均總能量誤差和總能量的演變。對於 DHN,每個時間步的狀態最佳化由去噪機制建模,無需變分積分器。當塊大小為 2 時,本文的模型可以穩定地儲存總能量。增加塊大小會在較長的時間範圍內引起能量波動,但這種波動並沒有表現出明顯的能量漂移傾向。
以新穎的軌跡完成
圖 10 顯示了與 HNN(上行)和各種無物理約束基線模型(下行)的比較結果。本文的 DHN 採用較小的塊大小,狀態預測更準確,節能效果更好。
表徵學習
圖 11 展示了與 HNN 和常規網路相比,DHN 在不同塊大小(s = b/2)下的線性探測結果。與基線網路相比,本文的模型實現了更低的 MSE。如圖 4 所示,HNN 可以看作是哈密頓塊的特例,其核大小和步長均為 1,具有最強的區域性性。研究者引入的塊大小和跨度允許模型在不同尺度上觀察系統。在這個雙擺系統中,塊大小為 4 是推斷其引數的最佳時間尺度。
圖 12 展示了不同塊大小和步長的 DHN 結果。如圖 12b 所示,哈密頓塊的輸入和輸出狀態有一個 b-s 時間步長的重疊區域。哈密頓塊的廣義能量守恆依賴於重疊區域具有相同的輸入和輸出。在訓練過程中,這一約束作為狀態預測損失的一部分強加給網路。較大的重疊會對網路施加更強的正則化,但會鼓勵網路執行更多的自一致性約束,而不是更多的狀態間關係。相反,減少重疊度的同時增加跨度,可以鼓勵模型吸收更多時間上較遠的狀態資訊,但代價是削弱自洽性約束,從而影響穩定性。在重疊等於塊大小 b 且跨度為零的極端情況下,DHN 塊的輸入和輸出完全相同,訓練損失退化為自相干約束。HNN 是另一種重疊為零的特殊情況(因為塊大小為 1,重疊只能為零)。如 12b 所示,對於簡單雙層 transformer,最佳的塊大小和跨度約為 s≈ b/2,重疊量適中。
軌跡插值
研究者透過重複應用 2 倍超解析度來實現 4 倍超解析度。如圖 13 左所示,為每個階段構建一個 b = 2、s = 1 的 DHN 塊。不同稀疏度的軌跡塊如圖 13 右所示。掩碼應用於中間狀態,邊上的兩個狀態是已知的。
在所有三個超解析度階段中,每個軌跡都與共享的全域性潛碼相關聯,從而為訓練集形成一個結構化程式碼集。在訓練過程中,網路權重和這些潛碼會在逐步細化階段(0、1、2)中共同最佳化。在推理時,給定一個僅在最稀疏水平(第 0 階段)已知狀態的新軌跡,研究者凍結了 DHN 塊中的所有網路權重,並最佳化第 0 階段的全域性潛碼。
最後,研究者將本文模型與用於超解析度的 CNN 進行了比較,結果如圖 14 所示。對於與訓練資料具有相同初始狀態的軌跡,兩個模型都顯示出較好的插值結果,MSE 也較低。基線 CNN 的結果稍好,因為它本身沒有正則化,很容易過擬合訓練軌跡。對於具有未知初始狀態的測試軌跡,CNN 難以實現泛化,因為其插值在很大程度上依賴於訓練分佈。相比之下,DHN 具有很強的泛化能力,因為其物理約束表徵使其即使在分佈變化的情況下也能推斷出可信的中間狀態。
更多研究細節,可參考原論文。