編輯 | 蘿蔔皮
深度神經網路模型的快速進步顯著增強了從微生物序列資料中提取特徵的能力,這對於解決生物學挑戰至關重要。然而,標記微生物資料的稀缺性和複雜性給監督學習方法帶來了巨大的困難。
為了解決這些問題,山東大學的研究人員提出了 DNASimCLR,這是一個專為高效基因序列資料特徵提取而設計的無監督框架。
DNASimCLR 利用卷積神經網路和基於對比學習的 SimCLR 框架,從不同的微生物基因序列中提取複雜特徵。預訓練在兩個經典的大型未標記資料集上進行,包括宏基因組和病毒基因序列。後續分類任務透過使用之前獲得的模型對預訓練模型進行微調來執行。
DNASimCLR 的多功能性使其在涉及新基因序列或以前未見過的基因序列的場景中表現良好,使其成為基因組學中各種應用的寶貴工具。
該研究以「DNASimCLR: a contrastive learning-based deep learning approach for gene sequence data classification」為題,於 2024 年 10 月 14 日釋出在《BMC Bioinformatics》。
即使是目前最全面的微生物基因資料庫也存在資料和標籤缺失的問題,這嚴重限制了許多監督式深度學習方法的有效性。解決這一不完整性是一項迫切需要關注的挑戰。
本文針對微生物基因序列資料的表徵學習問題,提出了一種基於對比學習的神經網路特徵提取方法。
圖示:DNASimCLR 框架概述。(來源:論文)
DNASimCLR 的工作流程主要包括兩個階段:對比學習的預訓練階段和分類網路的微調階段。在預訓練階段,研究人員使用 One-Hot 編碼方法將未標記的原始 DNA 基因序列資料轉換為適合機器學習的格式。
在預訓練階段,對 One-Hot 編碼資料進行隨機掩碼處理,生成訓練資料集。在此階段,研究人員採用 SimCLR 框架模型來獲取未標記序列的向量表示。該過程透過對比學習將基因序列嵌入到固定維度的高維空間中。
在微調階段,利用預訓練階段得到的特徵提取模型,對標註資料採用不進行掩蔽操作的One-Hot編碼方法進行編碼。研究人員繼續進行分類預測的訓練,最終得到一個能夠確定 DNA 序列類別的分類網路
在效能評估方面,該團隊對不同來源的基因組資料庫進行了測試。
研究人員用 DNASimCLR 對不同長度(250 bp、500 bp、1000 bp、1300 bp 和 10,000 bp)的讀段序列進行了分類和短序列病毒宿主預測,實現了 99% 的顯著分類準確率,實現了顯著的準確性提升。
並且,這項研究的意義是多方面的。
首先,首次將對比學習應用到微生物基因序列資料的表徵學習中,發展了一種新的針對基因資料的資料處理方法,突破了傳統SimCLR方法僅適用於影像資料的侷限性,擴充了對比學習的應用領域。
其次,該研究提出的微生物基因序列資料分類器在效能上表現出了大幅的提升,為卷積神經網路方法在處理生物資料方面的發展開闢了新的機遇。
第三,由於預訓練階段和分類階段的分離,該方法可以輕鬆應用於其他基因組學問題,例如蛋白質功能預測和新病毒檢測。
總之,DNASimCLR 代表了利用自監督學習模型進行微生物基因序列特徵提取的先進探索。這種方法有可能在生物資訊學領域引入創新概念,提供透過卷積神經網路獲取生物序列特徵的途徑。
論文連結:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05955-8