「畢昇一號」DNA活字儲存噴墨印表機來了,低成本、高效率、全自動的DNA儲存

机器之心發表於2024-11-26

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


2024 年 11 月 18 日,中科院北京基因組研究所(國家生物資訊中心)陳非團隊、計算所處理器全國重點實驗室譚光明、卜東波團隊、中科計算技術西部研究院段勃團隊、微生物所楊懷義團隊、武漢所劉翟團隊以及吉林大學李全順團隊等在知名國際學術期刊《Advanced Science》上發表了題為 “Cost-Effective DNA Storage System with DNA Movable Type” 的論文,借鑑畢昇活字印刷術的思想,提出了“DNA活字儲存”新思路,並實現了具有完全自主智慧財產權的全自動、低成本、高效率的DNA 活字儲存噴墨印表機“畢昇一號”。
圖片
  • 論文標題:Cost-Effective DNA Storage System with DNA Movable Type

  • 論文地址:https://onlinelibrary.wiley.com/doi/10.1002/advs.202411354「畢昇一號」DNA活字儲存噴墨印表機來了,低成本、高效率、全自動的DNA儲存

1. 什麼是 DNA 儲存?

資料指數級增長,磁帶、磁碟、光碟、U 盤不敷使用,怎樣才能存得下?

存到 DNA 中吧!存到 DNA 中是一種有潛力的方案!

網際網路時代的到來, 數字化和資訊化浪潮使知識與資料都經歷著爆炸式的增長。海量資料給現有的資料儲存技術帶來了巨大的挑戰:現有的硬碟、磁帶儲存模式存在儲存時長有限(最長約 30 年)、佔用空間大、轉運不方便、電能損耗大等缺點,無法滿足資料指數形式增長的需求。

DNA 儲存技術是一種新興的大資料儲存技術。簡要地說,DNA 儲存技術突破了傳統的以矽基介質(如 U 盤等)為媒介的儲存方式,而是利用 DNA 鹼基天然的資訊儲存能力,依據一定規則將文字、圖片、聲音、影像檔案等傳統資料 0-1 二進位制編碼轉換為 DNA 核苷酸四進位制編碼(A、T、C、G 組合),然後透過人工合成特定序列的 DNA 來儲存資料。相比於現有的資料資訊儲存方式,DNA 儲存技術具有資料密度高、儲存時間長、配套裝置能耗低、便於攜帶、運輸隱蔽性高和便於多重加密等優點。
圖片
圖 1. DNA 儲存技術及其優勢

鑑於 DNA 儲存技術的巨大潛力,美國微軟公司陸續投資近億美元,與華盛頓大學於 2015 年成立 DNA 儲存專案組,於 2018 年 3 月完成了約 200MB 資料的儲存,其中包括古登堡計劃資料庫中的 100 部世界名著,創造了 DNA 儲存領域的新紀錄。2019 年,他們構建了端到端全流程原型機,實現了 “hello” 單詞的完整寫讀。

2. 什麼是 DNA 活字儲存?

現有的 DNA 儲存技術 “一次合成、一次使用”,價格昂貴,怎樣才能降低成本?

用 DNA 活字吧!DNA 活字儲存是一種有潛力的方案!

“慶曆中,有布衣畢昇,又為活板。其法:用膠泥刻字,薄如錢唇,每字為一印,火燒令堅…… 欲印,則以一鐵範置鐵板上,乃密佈字印,滿鐵範為一板,持就火煬之,藥稍鎔,則以一平板按其面,則字平如砥。若止印三二本,未為簡易;若印數十百千本,則極為神速”。這是沈括寫的《活板》中的一段話 ---《活板》被選作初中課文,是以舉凡在中國讀過初中者,想必對畢昇發明活字印刷術的故事皆耳熟能詳。《活板》有言:“有奇字素無備者,旋刻之,以草火燒,瞬息可成”,活字印刷術相較於雕版印刷術之優勢可見一斑。

那什麼是 DNA 活字儲存呢?所謂 DNA 活字儲存,就是 “DNA 版本的活字印刷術”。目前的 DNA 儲存技術方案,多采用化學合成法,一次合成,一次使用,可比作雕版印刷術;而 DNA 活字能夠一次合成,多次使用,可比作活字印刷術。

具體來說,DNA 活字儲存採用酶連反應替代部分化學合成步驟完成資料寫入,每個活字可重複使用多達一萬次,從而將資料儲存成本降低至每兆位元組僅 122 美元,成為當前業內最具成本效益的儲存解決方案。
圖片
圖 2. 畢昇發明的活字印刷術與 DNA 活字儲存。以唐詩《行路難・其一》為例,我們將每個字元及其位置索引轉換成 DNA 活字,用酶聯技術連線成 DNA 片段,最終轉匯入大腸桿菌中長期儲存

3. “畢昇一號”--- 全自動的 DNA 活字儲存噴墨印表機

DNA 活字儲存包括選活字、酶聯活字、酶聯後的 DNA 片段轉匯入大腸桿菌中長期儲存等多個環節。如何提高儲存效率呢?聯合團隊研發了 DNA 活字噴墨印表機 “畢昇一號”,全自動完成上述諸多環節,顯著提升了資料寫入效率 --- 研究團隊將這臺印表機命名為 “畢昇一號”,以表達對畢昇的崇敬之意。
圖片
圖 3. “畢昇一號”--- 全自動的 DNA 活字儲存噴墨印表機

“畢昇一號” 系統使用 350 個 DNA 活字,成功儲存並精準檢索了 43.7 KB 的多媒體資料,包括文字、影像、音訊和影片,充分證明了其技術的可行性和應用潛力。這項工作為 DNA 資料儲存技術的未來產業化提供了全新的思路與可能性。

畢昇一號 DNA 活字儲存系統的工作流程包括四個主要步驟:

第一步,編碼:將目標檔案(如《十四行詩》第 12 首)分割為 100 位元組 / 字元的片段,每個片段進一步劃分為 20 個資料切片。每個切片包含 5 位元組的有效載荷和 4 位元組的地址,形成資料條帶。例如,圖中展示了第四條資料條帶的 20 個連續資料切片(第 0–19 行),這些切片覆蓋了第 300 到第 399 個字元的內容(如 “ed up...question ma”),其中第 8 個切片在第 340 個位置編碼了單詞 “white”。此外,透過列校驗和(第 20–29 行)和行校驗和(第 9 列)提供了額外的錯誤檢測和糾正功能。

第二步,列印:利用 “畢昇一號” DNA-MT 噴墨印表機,將 4 個地址活字(AMTs)、5 個有效載荷活字(PMTs)和 1 個校驗活字(CMT),以及連線酶和預切割載體列印到每個試管中,透過酶促連線形成包含 DNA-MT 塊的質粒。

第三步,儲存:組裝完成的重組質粒可以以液體或凍幹形式進行體外儲存,或者轉化至大腸桿菌中實現長期體記憶體儲。

第四步,解碼:透過高通量測序對 DNA 活字塊進行測序,獲得的 DNA 序列根據編碼表解碼為對應活字,從而還原原始資料。例如,解碼一個 250 個鹼基的序列可以恢復第 340 個位置的單詞 “white”。最終,解碼後的有效載荷活字根據地址活字的順序排列,完成對原始檔案的重建。
圖片
圖 4. 畢昇一號 DNA 活字儲存系統的工作流程

畢昇一號 DNA 活字儲存的成本約為 122 $/MB,明顯低於現有的 DNA 儲存技術。該團隊表示,後續研究透過增加活字連線段數和減小反應體系,可將儲存成本降低至 0.06 $/MB,伴隨著編碼技術的進步,如整合高密度噴泉碼和改進校驗的 DNA 活字,成本將進一步降低,有望進一步推動 DNA 儲存的商業化程序。
圖片
圖 5. DNA 活字儲存技術可顯著降低儲存成本

4. 展望

DNA 儲存技術是生物技術與資訊處理技術的碰撞與交叉。它開闢了一種新的儲存模式,從根本上改變了資料、資訊的儲存及傳遞方式,是大資料儲存模式的新篇章。

北宋時,畢昇發明了活字印刷術,盡掃雕版印刷術之弊;而時至今日,古老的活字印刷術與現代的 DNA 儲存相互激發,相互交叉,碰撞出 “DNA 活字儲存” 這一新思維。

“發揮舊事重增煥”。我們期待:“畢昇一號” DNA 活字儲存噴墨印表機將像畢昇的 “活板” 一樣,另闢蹊徑,開創新篇!
圖片
圖 6. 研究團隊部分人員。左起:張心茹、範婷文、邢晶、段勃、陳非、卜東波、劉翟、楊懷義、馬灌楠、魏徵、魏迪、王晨陽、王佩、侯鵬飛、塗朝仕。

相關文章