編輯丨ScienceAI
無監督聚類演算法在劃分 Nano-ARPES(ARPES:角分辨光電子能譜)空間對映資料集方面表現出強大的能力。然而,在區分細微的能帶差異方面則表現欠佳。
在最新的研究中,中國科學院高能物理研究所的研究團隊與南京理工大學的科研人員合作開發了一種多階段無監督聚類演算法(Multi-Stage Clustering Algorithm,MSCA)。
相較於傳統的聚類演算法,該演算法在聚類精度上提升了約 20%,透過自動提取能帶在表面的一致性從而清晰地劃分出 MoS2/BN 異質結中不同襯底或層數 MoS2 的分佈,並實現了細微能帶差異的抓取。
該研究以「Automatic extraction of fine structural information in angle-resolved photoemission spectroscopy by multi-stage clustering algorithm」為題,於 2024 年 12 月 6 日釋出在《Communications Physics》。
在固體材料科學領域,ARPES 技術因其對電子動量和能量同時分辨的能力而被廣泛用於量子材料的電子結構表徵。傳統的 ARPES 技術受限於毫米級的光斑尺寸而往往僅能對均質的完美單晶開展研究,高能同步輻射光源(HEPS)上的 Nano-ARPES 線站透過聚焦X射線光斑至奈米量級,使得研究電子結構在表面微納尺度的分佈成為可能。然而,樣品表面的複雜性以及高維度的龐大資料量給 Nano-ARPES 的資料分析帶來了挑戰。
近年來,利用無監督聚類演算法劃分樣品表面不同電子結構區域的研究取得了一定的進展。雖然傳統的無監督聚類演算法能夠針對能帶結構在秒量級完成對不同材料的區域劃分,但在區分細微的能帶差異方面則表現欠佳,比如傳統聚類演算法難以區分 MoS2/BN 異質結中由不同襯底或層數造成的 MoS2 價帶劈裂。
然而這些由於某種誘導因素導致的細微能帶變化往往蘊含著豐富的物理機制並且是研究人員所關注的資訊。針對這一問題,作者開發了一種多階段無監督聚類演算法(Multi-Stage Clustering Algorithm,MSCA) ,該方法在 Nano-ARPES 資料集中同時實現了實空間和動量空間的聚類分析。此外,MSCA 能夠指出一些細微的能帶差異,如能帶的移動或分裂,顯著提高了聚類的準確性和識別限度。
本研究基於的資料來自樣品 MoS2/BN/Au,三種材料疊放在一起,由上至下分別是 MoS2,BN 和 Au,樣品的 Truth Table 由圖 1 所示,Truth Table 用來計算演算法的效能指標。目前應用廣泛的 K-means 演算法只能區分出具有較大差異的 Au,BN 和 MoS2 三種材料,但對於不同型別 MoS2 的區分表現欠佳,如圖 2 所示。
Multi-Stage Clustering Algorithm(MSCA)
圖 3 :多階段聚類演算法(MSCA)分析流程。
MSCA 將 K-means 演算法應用於三個階段的資料處理。在不同的能量-動量視窗中,實空間的 K-means 聚類結果被視為第二輪動量空間 K-means 聚類的輸入。透過這種方式,可以捕獲到在實空間表現出不均勻的能量-動量視窗,從而準確區分具有細微差異的單/多層以及不同襯底的 MoS2,如圖 4 所示。
圖 4 :多階段聚類演算法(MSCA)動量空間及實空間的聚類結果。
為了評估各演算法的精度,研究人員使用 Accuracy、Recall、Precision 和 F1 score 等指標評估了 K-means 與 MSCA 演算法的效能。鑑於本研究中資料集的不平衡特性,研究人員透過計算 macro averages,對演算法的整體聚類正確性提供了更平衡和全面的評估,確保效能不會受到例項數量較多的類別的影響(表1/2)。
相較於 K-means 演算法,MSCA 的 Macro Accuracy,Precision,Recall 和 F1 Score 分別提升了 2%,6%,20% 和 18%。另外,每一類 MoS2 的 Precision 和 Recall 數值都更加的平衡,表明 MSCA 在正確識別正例項的同時能夠有效避免將負例項錯誤分類為正例項,這種平衡的效能通常被認為是演算法的理想特徵。
未來展望
MSCA 作為一種高效的資料處理方法,特別適用於處理具有複雜能帶色散的樣品,能夠精確捕捉到細微的能帶差異,對於高維科學資料分析具有重要的實用價值。MSCA 能夠像經驗豐富的研究人員一樣,自動搜尋空間中的不均勻能帶結構,並突出顯示這些能帶,無需依賴以往的研究知識。
隨著 MSCA 的引入,Nano- ARPES 的應用將變得更加強大。與人工提取能帶資訊的方式相比,MSCA 的表現更佳,尤其是在訊雜比低的二維 ARPES 影像中,這將幫助研究人員基於更短的採集時間快速找到感興趣的區域。此外,系統穩定性是 Nano-ARPES 的關鍵因素,MSCA 可以透過監控每次獨立採集之間的相似性來去除偏差資料,從而提高 Nano-ARPES 系統對低頻波動的魯棒性。
未來,MSCA 演算法將整合到 HEPS 的 Nano-ARPES 資料採集系統(MAMBA),實現線上精細聚類和能帶結構提取,進行高效的 ARPES 實驗資料採集,加速各類基礎科研成果的產出。
論文連結:https://www.nature.com/articles/s42005-024-01878-1
圖片均來自論文或網路。