數百萬晶體資料訓練，解決晶體學相位問題，深度學習方法PhAI登Science

編輯 | KX

時至今日，晶體學所測定的結構細節和精度，從簡單的金屬到大型膜蛋白，是任何其他方法都無法比擬的。然而，最大的挑戰——所謂的相位問題，仍然是從實驗確定的振幅中檢索相位資訊。

丹麥哥本哈根大學研究人員，開發了一種解決晶體相問題的深度學習方法 PhAI，利用數百萬人工晶體結構及其相應的合成衍射資料訓練的深度學習神經網路，可以生成準確的電子密度圖。

研究表明，這種基於深度學習的從頭算結構解決方案方法，可以以僅 2 埃的解析度解決相位問題，該解析度僅相當於原子解析度可用資料的 10% 到 20%，而傳統的從頭算方法通常需要原子解析度。

相關研究以《PhAI: A deep-learning approach to solve the crystallographic phase problem》為題，於 8 月 1 日釋出在《Science》上。

論文連結：https://www.science.org/doi/10.1126/science.adn2777

晶體學是自然科學中的核心分析技術之一。X 射線晶體學為晶體的三維結構提供了獨特的視角。為了重建電子密度圖，必須知道足夠多的衍射反射的複雜結構因子 F。在傳統實驗中，只能獲得振幅 |F|，而相位 ϕ 會丟失。這是晶體學相位問題。

圖示：標準晶體結構測定流程圖。（來源：論文）

20 世紀 50 年代和 60 年代取得了重大突破，Karle 和 Hauptmann 開發了用於解決相位問題的所謂直接方法。但直接法需要原子解析度的衍射資料。然而，原子解析度的要求是一種經驗觀察。

近年來，傳統的直接方法已被對偶空間方法所補充。目前可用的從頭算方法似乎已達到極限。相位問題的普遍解決方案仍然未知。

從數學上講，結構因子振幅與相位的任何組合都可以進行逆傅立葉變換。然而，物理和化學要求（例如具有原子狀電子密度分佈）對與一組振幅一致的相位的可能組合施加了規則。深度學習的進步使得人們能夠探索這種關係，也許比目前的從頭算方法更深入。

在此，哥本哈根大學的研究人員採用了資料驅動的方法，使用數百萬個人造晶體結構及其相應的衍射資料，旨在解決晶體學中的相位問題。

研究表明，這種基於深度學習的從頭算結構解決方案方法，可以在僅最小晶格平面距離（dmin）= 2.0 Å 的解析度下執行，只需要使用直接方法所需資料的 10% 到 20%。

神經網路的設計與訓練

構建的人神經網路稱之為 PhAI，接受結構因子振幅 |F| 並輸出相應的相位值 ϕ 。PhAI 的架構如下圖所示。

圖示：PhAI 神經網路方法解決相位問題。（來源：論文）

晶體結構的結構因子數量取決於晶胞大小。根據計算資源，對輸入資料的大小設定了限制。輸入結構因子振幅是根據 Miller 指數 (h、k、l) 服從的反射來選擇的。

也就是，限制在原子解析度下晶胞尺寸約為 10 Å 的結構。此外，選擇了最常見的中心對稱空間群 P21/c。中心對稱性將可能的相位值限制為零或 π rad。

研究使用主要包含有機分子的人工晶體結構訓練神經網路。建立了大約 49,000,000 個結構，其中有機晶體結構佔 94.29%，金屬有機晶體結構佔 5.66%，無機晶體結構佔 0.05%。

神經網路的輸入由振幅和相位組成，它們由卷積輸入塊處理，新增並輸入到一系列卷積塊（Conv3D）中，然後是一系列多層感知器（MLP）塊。來自線性分類器（相位分類器）的預測相位透過網路迴圈 Nc 次。訓練資料是透過將 GDB-13 資料庫中的金屬原子和有機分子插入到晶胞中生成的。生成的結構被組織成訓練資料，從中可以計算出在取樣溫度因子、解析度和完整性時的真實相位和結構因子振幅。

解決真實結構問題

經過訓練的神經網路在標準計算機上執行，計算需求適中。它接受 hkl 索引列表和相應的結構因子振幅作為輸入。不需要其他輸入資訊，甚至不需要結構的晶胞引數。這與所有其他現代從頭算方法有著根本區別。網路可以即時預測並輸出相位值。

研究人員使用計算得出的真實晶體結構的衍射資料測試了神經網路的效能。共獲得 2387 個測試用例。對於所有收集的結構，考慮了多個資料解析度值，範圍從 1.0 到 2.0 Å。為了進行比較，還使用了電荷翻轉方法來檢索相位資訊。

圖示：相位和真實電子密度圖之間的相關係數 r 的直方圖。（來源：論文）

經過訓練的神經網路表現出色；如果相應的衍射資料解析度良好，它可以解決所有測試結構（N = 2387），並且在從低解析度資料中解決結構方面表現出色。儘管神經網路幾乎沒有針對無機結構進行訓練，但它可以完美地解決此類結構。

電荷翻轉法在處理高解析度資料時表現優異，但隨著資料解析度的降低，其產生合理正確解的能力逐漸下降；然而，它仍然以 1.6Å 的解析度解決了大約 32% 的結構。透過進一步試驗和更改輸入引數（例如翻轉閾值），可以改善透過電荷翻轉確定的結構數量。

在 PhAI 方法中，這種元最佳化是在訓練期間執行的，不需要由使用者執行。這些結果表明，在晶體學中必須有原子解析度資料才能從頭算相位的普遍觀念可能被打破。PhAI 僅需要 10% 至 20% 的原子解析度資料。

這一結果清楚地表明，原子解析度對於從頭算方法來說不是必需的，併為基於深度學習的結構測定開闢了新途徑。

這種深度學習方法的挑戰是擴充套件神經網路，也就是說，較大晶胞的衍射資料將需要大量的輸入和輸出資料以及訓練期間的計算成本。未來，需要進一步研究，將該方法擴充套件到一般情況。

相關文章