速度提升3200倍,準確率提高40%!深度神經網路+糾錯碼革新DNA儲存技術

ScienceAI發表於2025-03-03
圖片

編輯 | 2049

在全球資料量呈指數級增長的今天,傳統儲存技術的擴充套件速度已難以跟上。

脫氧核糖核酸(DNA)分子作為一種資訊儲存介質,以其卓越的資訊密度、增強的資料耐久性和幾乎可忽略的維護能耗,正逐漸成為解決儲存危機的關鍵方案。

然而,DNA 儲存技術面臨可擴充套件性和準確性之間的權衡困境,成為商業化落地的主要障礙。

來自以色列理工學院(Technion)電腦科學學院的研究團隊開發了一種創新方法,透過將深度神經網路(DNN)、基於張量積的糾錯碼(Error-Correcting Codes,ECC)和安全邊際機制整合到一個統一的流程中,實現了 DNA 儲存系統在高噪聲環境下的高效可靠執行。

該研究以「Scalable and robust DNA-based storage via coding theory and deep learning」為題,發表於 2025 年 2 月 21 日的《Nature Machine Intelligence》。

圖片

論文連結:https://www.nature.com/articles/s42256-025-01003-z

資料連結:https://zenodo.org/records/13896773

程式碼地址:https://github.com/itaiorr/Deep-DNA-based-storage.git

研究背景:DNA 儲存系統的挑戰

DNA 儲存透過將數字資訊編碼成 DNA 序列併合成對應的 DNA 鏈,具備理論上幾乎無限的儲存容量。

然而,此過程中的關鍵挑戰在於資訊檢索系統,其需要克服 DNA 合成和測序過程中產生的各類錯誤,包括鹼基替換、插入和刪除。

傳統的 DNA 資訊檢索流程包括聚類、重建和解碼三個關鍵環節,其中每一步都面臨著演算法複雜度和準確性之間的平衡問題。

此前的解決方案往往採用內部編碼或外部編碼技術,透過新增冗餘符號來檢測和糾正錯誤。這類方法未能充分利用 DNA 合成和測序過程中的固有冗餘,導致編碼方案冗餘度較高,同時需要處理更多的 DNA 鏈和讀取序列,系統效率較低。

DNAformer:端到端資訊檢索解決方案

研究團隊提出的 DNAformer 解決方案採用模組化編碼方案,將 ECC 和約束碼結合在 DNA 合成和儲存之前。這種設計允許將大型資料集劃分為更小的塊,實現快速、簡便的資料訪問。

DNAformer 的創新在於資訊檢索流程。首先,系統採用基於索引的簡單分箱演算法進行聚類,這種方法雖然會引入噪聲,但極大提升了處理速度。接著,系統使用 DNN 從讀取序列重建原始編碼序列。

該網路採用卷積和 Transformer 的組合架構,後接置信度過濾器,用於篩選準確預測和不準確預測。對於可能不準確的預測,系統會應用基於動態規劃的條件機率邏輯(Conditional Probability Logic,CPL)演算法進行二次重建,該演算法無需先驗知識即可估計聚類中的錯誤機率,有效平衡了準確性和速度的權衡。

為避免高昂的 DNN 訓練資料獲取成本,研究團隊使用小規模真實資料分析合成、聚合酶鏈式反應(Polymerase Chain Reaction,PCR)和測序的錯誤率,構建了 SOLQC 工具模型,進而生成大量模擬訓練資料。這種方法只需為每種合成和測序技術建模一次,使解決方案在成本和規模上更具優勢。

圖片

圖示:DNA 資訊檢索的端到端解決方案。(來源:論文)

實驗驗證與效能分析

研究團隊使用 Illumina miSeq 和 Oxford Nanopore MinION 兩種不同的測序技術,對總計 3.1 MB 的資訊進行了實驗驗證。實驗資料包括壓縮資料夾(包含影像、24 秒音訊片段和文字檔案)及隨機資訊位,共分為兩個檔案,每個約 1.5 MB。

圖片

圖示:用於 DNA 實驗的資料。(來源:論文)

與當前領先的解決方案相比,DNAformer 在速度上實現了 3200 倍的提升,準確率提高了 40%。在高噪聲環境下,該系統提供了每鹼基 1.6 位元的編位元速率,遠超現有方案。具體來說,在 Illumina 資料集上,DNAformer 的失敗率僅為 0.0055%;在 Nanopore 資料集上,失敗率為 1.65%。

圖片

圖示:DNAformer 與 SOTA DNA 重建方法的比較。(來源:論文)

此外,DNAformer 在資料模態方面表現出色,不依賴於底層語義或資料結構,而是專注於合成和測序過程中的噪聲特性,使其能夠以相似的效能處理非結構化和結構化資料。

系統的另一創新在於編碼方案,它使用基於張量積的模組化編碼方案,既充分利用上游步驟中的固有冗餘,又減少了編碼方案中所需的冗餘度。透過引入安全邊際機制,該系統能夠量化在特定工作條件下的穩健性,進一步提升可靠性。

圖片

圖示:資訊檢索效能評估。(來源:論文)

未來展望與意義

DNAformer 成功克服了 DNA 儲存系統中失敗率和執行時間的主要瓶頸,透過結合 DNN 與 ECC 的方法,顯著改進了解碼過程並縮短了系統響應時間。這一突破為 DNA 儲存的商業化應用掃除了重要的技術障礙。

然而,要實現規模化應用仍需解決 DNA 合成與測序成本、長期穩定性以及法律和標準化等問題。隨著相關技術的進步,DNAformer 這類端到端解決方案將在大規模資料儲存系統中發揮越來越重要的作用。

未來研究可以進一步最佳化神經網路架構(如改進 Transformer 模型)、探索更高效的編碼方案(如針對插入和刪除錯誤的專用編碼),並開發更智慧的聚類演算法以降低系統對聚類大小和噪聲水平的敏感性,使 DNA 儲存技術更加穩健和經濟可行。

相關文章