編輯 | 蘿蔔皮
粒子加速器的自主調節是一個活躍且具有挑戰性的研究領域,其目標是實現先進的加速器技術和尖端的高影響力應用,例如物理發現、癌症研究和材料科學。但是,自主加速器調節仍然嚴重依賴經驗豐富的熟練操作員的手動操作。
德國亥姆霍茲協會旗下 DESY(Deutsches Elektronen Synchrotron)的研究人員建議使用大型語言模型(LLM)來調整粒子加速器。
該團隊透過一個原理驗證示例展示了 LLM 僅根據操作員的自然語言提示來調整加速器子系統的能力,並將其效能與當前最先進的最佳化演算法,如貝葉斯最佳化(BO)和強化學習訓練最佳化(RLO),進行了比較。
LLM 可以對非線性現實目標進行數值最佳化,未來有望幫助加速將自主調諧演算法部署到日常粒子加速器操作中。
該研究以「Large language models for human-machine collaborative particle accelerator tuning through natural language」為題,於 2025 年 1 月 1 日釋出在《Science Advances》。
粒子加速器是一種精密的機器,旨在將電子和質子等亞原子粒子加速到極高的速度,通常接近光速。這些裝置在各種應用中發揮著至關重要的作用,從物理學的基礎研究到醫學的實際應用,例如癌症治療和材料科學。
隨著這些不同應用的需求不斷增長,對先進調諧和控制方法的需求也日益增加,以管理粒子加速的複雜動態。儘管如此,由於其複雜性,粒子加速器的調諧至今仍通常由經驗豐富的操作員手動完成。
在此背景下,自主調諧方法的出現代表著一項重大進步。透過利用數值最佳化和機器學習(ML)領域的方法,自主系統有望加快加速器調諧程式,降低成本並最大限度地減少停機時間,同時還支援先進的操作模式以實現最先進的測量。
在最新的研究中,DESY 的研究人員介紹了一種使用 LLM 進行粒子加速器自主調諧的方法。
他們探究了當前最先進的 LLM 是否能夠解決粒子加速器調諧任務,以及它們是否為當前最先進的粒子加速器調諧提供了一種有潛力的替代方案。
圖示:使用 LLM 調整粒子加速器的最佳化方案流程圖。(論文)
為此,研究人員比較了 14 種不同的 LLM(包括 Gemma、GPT 4、Llama 2 、Vicuna 7B 、Mistral、Starling-LM 等主流大模型的不同版本)和 4 種不同的提示模板(調整提示、解釋提示、思路鏈提示和最佳化提示),並評估了基於 LLM 的方法與其他調諧演算法(包括 RLO 和 BO)的比較。
圖示:每個模型和提示的成功執行和試驗的次數。(來源:論文)
考慮到 14 種不同的開放權重和商業 LLM 以及 4 種不同的提示的組合,研究人員發現 34 種 LLM 提示組合中只有 18 種能夠成功實現本文中考慮的橫樑引數調整任務的最佳化。
圖示:LLM 執行良好和不良調節時的磁體設定和光束引數軌跡。(來源:論文)
雖然通常可以使用 LLM 進行加速器調優,但模型和提示的選擇至關重要。與最先進的加速器調優演算法相比,該團隊進一步發現 LLM 暫時無法與 RLO 和 BO 競爭。
效能最佳的 LLM 提示組合,即 GPT 4 Turbo 與最佳化提示,實現了平均約 50% 的歸一化光束改進,這僅為 RLO 和 BO 分別實現的約 99% 和 93% 的一半。
雖然 LLM 的效能沒有達到競爭水平,但也會產生高昂的計算成本,從而導致推理時間長、金錢成本高以及對環境的影響顯著。
圖示:成功的調整執行次數、平均標準化 MAE 改進以及每個 LLM 相對於其大小、LMSYS Chatbot Arena ELO 評級、MMLU 分數、MT-bench 分數和 HellaSwag 分數的平均標準化累積 MAE。(來源:論文)
雖然這些明顯的缺點意味著 LLM 還不是最先進的加速器調優演算法的可行替代方案,但該團隊的結果提供了一個有趣的概念證明。LLM 領域正在迅速發展,幾乎每天都會發布更強大的模型。
該團隊已經證明,更強大的模型通常在加速器調優任務上表現更好,這意味著 LLM 領域的必然進步也將帶來更好的加速器調優任務表現。最終,這種發展可以使透過自然語言直觀地部署自主加速器調優解決方案成為一種可行的選擇。
團隊認為在不久的將來 LLM 不會直接替代最先進的加速器調諧演算法,而是會成為人類粒子加速器操作員的「副駕駛員」。它們可以為與加速器操作相關的各種任務提供自然語言介面,例如從日誌中檢索資訊、生成報告或根據大量診斷測量結果診斷加速器的狀態。
研究人員相信 LLM 還可用於在聯合設定中協調最先進的加速器調整演算法(例如 RLO 和 BO),從而決定或幫助操作員決定下一步調整加速器的哪個部分、使用哪種演算法以及期望獲得哪種結果。
此外,LLM 還可用於協助人類操作員部署最先進的調整演算法,例如,透過響應有關期望結果的自然語言提示,提出 Xopt 配置或目標函式和合適的執行器。
從長遠來看,讓 LLM 直接執行調整的方法可以透過使用 ReAct 提示方案或使用 LLM 檢查磁體設定(如 RLO 和 BO)在類似設定中是否合理來改進。
論文連結:https://www.science.org/doi/10.1126/sciadv.adr4173