如何把大量物理知識塞給AI?EIT和北大團隊提出「規則重要性」概念

ScienceAI發表於2024-03-13

如何把大量物理知識塞給AI?EIT和北大團隊提出「規則重要性」概念

編輯 | ScienceAI

深度學習模型因其能夠從大量資料中學習潛在關係的能力而「徹底改變了科學研究領域」。然而,純粹依賴資料驅動的模型逐漸暴露出其侷限性,如過度依賴資料、泛化能力受限以及與物理現實的一致性問題。

例如,美國OpenAI公司開發的文字到影片模型Sora因深刻理解事物在現實中的存在方式而受讚譽,被視為AI領域的飛躍。儘管能利用大量視覺資料生成逼真影像和影片,Sora卻被認為未掌握物理定律,如重力和玻璃破碎等。

面對這一問題,將人類知識融入深度學習模型是一個潛在的解決方案。將先驗知識與資料一起使用,能夠提升模型的泛化能力,從而建立能夠理解物理規律的「知情機器學習」(Informed machine learning)模型。

然而,目前對深度學習中知識的價值仍缺乏深入理解,確定哪些先驗知識(包括函式關係、等式和邏輯關係等)能有效地融入模型以進行「預學習」,已成為一項亟待解決的難題。同時,盲目地整合多項規則可能會引發模型的崩潰。這種侷限性制約了對資料與知識關係的進一步探索。

針對這一問題,東方理工(EIT)和北京大學的研究團隊提出了「規則重要性」的概念,並開發了一套框架,能精確計算每個規則對模型預測精度的貢獻。該框架不僅揭示了資料和知識之間的複雜相互作用關係,為知識嵌入提供了理論性指導,還有助於在訓練過程中平衡知識和資料的影響。此外,該方法還可用於識別不恰當的先驗規則,為交叉學科領域的研究與應用提供廣闊前景。

該研究以「Worth of Prior Knowledge for Enhancing Deep Learning」為題,於 2024 年 3 月 8 日發表在 Cell 出版社旗下交叉學科期刊《Nexus》上,並被 Cell Press 團隊在 AAAS(美國科學促進會)和 EurekAlert!進行報導。

圖片

在教授孩子拼圖時,既可以讓他們透過反覆試驗來找出答案,也可以用一些基本的規則和技巧來引導他們。同樣地,將規則和技巧——比如物理定律——融入到人工智慧訓練中能讓它們更貼近現實,運作更高效。然而,如何評估這些規則在人工智慧中的價值,一直是困擾研究者的難題。

鑑於先驗知識的豐富多樣性,將先驗知識融入深度學習模型是一個複雜的多目標最佳化任務。研究團隊創新性地提出了一個框架,以量化不同先驗知識在提高深度學習模型方面的作用。他們將此過程視為充滿合作與競爭的博弈,透過評估規則對模型預測的邊際貢獻來界定其重要性。首先生成所有可能的規則組合(即「聯盟」),並對每個組合構建模型,並計算均方誤差。

為降低計算成本,他們採用了一種基於擾動的高效演算法:先訓練一個完全基於資料的神經網路作為基線模型,然後逐一加入各個規則組合進行額外訓練,最後在測試資料上評估模型表現。透過比較模型在包含和不包含某個規則的所有聯盟中的表現,可以計算出該規則的邊際貢獻,進而得出其重要性。

圖片

圖示:規則重要性的計算流程(來源:論文)

透過流體力學的算例,研究人員探討了資料與規則間的複雜關係。他們發現,在不同任務中,資料和先驗規則的作用完全不同。當測試資料與訓練資料分佈相近時(即 In-distribution),資料量的增加會削弱規則的作用。

然而,當測試資料與訓練資料分佈相似度較低時(即 Out-of-distribution),全域性規則的重要性被凸顯出來,而區域性規則的影響則被削弱。這兩類規則的區別在於:全域性規則(如控制方程)影響整個域,而區域性規則(如邊界條件)僅作用於特定區域。

圖片

圖示:規則重要性與資料量之間的關係(來源:論文)

研究團隊經數值實驗發現,在知識嵌入中,規則間存在三種相互作用效應:依賴效應、協同效應和替代效應。

依賴效應指某些規則需依賴其他規則才能有效;協同效應表明多條規則共同作用的效果超越各自獨立作用時的總和;替代效應則顯示一條規則的功能可能被資料或其他規則替代。

這三種效應同時存在,並受到資料量的影響。透過計算規則重要性,可清晰展示這些效應,為知識嵌入提供重要指導。

在應用層面,研究團隊試圖解決知識嵌入過程中的一個核心問題:如何平衡資料與規則的作用,以提升嵌入效率並篩選出不適宜的先驗知識。在模型的訓練過程中,該團隊提出了一種動態調整規則權重的策略。

具體而言,隨著訓練迭代步的增加,逐漸增大正重要性規則的權重,同時減小負重要性規則的權重。這種策略能夠根據最佳化過程的需求,實時調整模型對不同規則的關注度,從而實現更加高效和準確的知識嵌入。

此外,向 AI 模型傳授物理定律可以使它們「更加貼近現實世界,從而在科學和工程領域發揮更大作用」。因此,該框架在工程、物理和化學領域具有廣泛的實際應用。研究人員不僅最佳化了機器學習模型來求解多元方程,還準確識別出對薄層色譜分析預測模型效能有提升效果的規則。

實驗結果顯示,透過融入這些有效規則,模型的效能得到了顯著提升,測試資料集上的均方誤差從 0.052 降低至 0.036(減少了 30.8%)。這意味著該框架可以將經驗性見解轉化為結構化知識,從而顯著提升模型效能。

總體而言,準確評估知識的價值有助於構建更契合現實的AI模型,提高安全性和可靠性,對深度學習發展具有重要意義。

圖片

圖示:透過規則重要性以識別有效的規則(來源:論文)

接下來,研究團隊計劃將他們的框架開發成可供人工智慧開發人員使用的外掛工具。他們的最終目標是開發出能夠直接從資料中提取知識和規則,進而自我完善的模型,從而打造一個從知識發現到知識嵌入的閉環系統,使模型成為真正的人工智慧科學家。

論文連結:https://www.cell.com/nexus/fulltext/S2950-1601(24)00001-9

AAAS 報導連結:https://www.eurekalert.org/news-releases/1036117

相關文章