DNA儲存,拯救人類資料危機的良方?
開一個腦洞:如果地球正在面臨一場馬上到來的毀滅性星際災害,人類又想盡可能地儲存地球的生命和文明,在現有條件下,該怎麼辦?
像大劉一樣讓地球停止自轉然後逃離太陽系,這恐怕來不及了。而如果像諾亞方舟一樣,一股腦把人類、動植物和人類的知識搬運到飛船上,現有的火箭運載能力,恐怕也裝不下這些物質的億萬分之一。
如果想盡可能多、儘可能長久地儲存地球的生物,我們只需要把所有物種的DNA序列資訊收集打包,在飛船的低溫環境下便可以儲存長達數十萬年;而人類文明的資訊呢?我們知道這些資訊最高效的形式就是資料,而這些資料主要儲存在硬碟和光碟當中的。
想想這些硬碟儲存器的重量和資料密度,我們不得不再一次氣餒。更何況,可能飛船還沒逃出太陽系,這些資料就會因為硬碟或光碟的壽終正寢而丟失。
那麼DNA能不能當做硬碟來儲存資料資訊呢?答案是,可以的。
DNA絕對是這個星球上最古老的生命資訊儲存工具,同樣也可以作為資料資訊的儲存介質,且儲存密度和使用壽命要遠遠超出現有的磁碟式的儲存方案。因此,DNA儲存,正在被人類視為資料儲存的未來,成為拯救人類資料儲存危機的最好的替代方案。
DNA儲存具體是怎麼做到的呢?現在發展到那一階段?商用的話還有哪些阻礙?這需要我們一一解答。
DNA儲存是如何工作的?
在瞭解DNA儲存是如何工作的之前,我們簡單瞭解下磁儲存和光儲存這兩種現有的解決方案的原理。
磁儲存的原理就是在金屬材料上塗上磁性介質,在通電的情況下形成電磁效應,可以進行儲存和表達0101的二進位制資訊。磁儲存的硬碟的優點是錄入和讀取的速度快,缺點是與體積重量相比,資料密度較低。經過60年發展,大概可以在3.5英寸大小的硬碟驅動上儲存3TB資料。
光儲存的原理是將數字編碼的視訊和音訊儲燒錄在光碟表面的凹槽中,再通過鐳射將這些凹槽中的資料讀取出來,進行轉存或播放。當前,光儲存也正在經歷儲存的極限。因為想要存下更多的資料,凹槽就必須越小、越緊湊,要求鐳射的精度也越高。目前,單層藍光光碟能夠儲存 25GB 以上的資訊,另一種紫外線鐳射如果研製成功,其光碟容量可以達到500GB的容量。
相對於磁儲存和光儲存而言,DNA儲存有哪些優勢?
首先,就是節約空間。但這些單層平鋪式的儲存方式,比起DNA的雙螺旋立體結構來說,其儲存量就有了多個數量級的差距。DAN本身的物理體積極小且又是立體結構,單位空間的資料密度非常高。舉個簡單的例子,1克DNA不到指尖上一滴露珠大小,卻能夠儲存700TB的資料,相當於1.4萬張50GB容量的藍光光碟,或233個3TB的硬碟(差不多151KG重)。
再則,非常節能。現有儲存方式,比如說一個資料中心,要消耗大量的單晶矽,還要消耗大量的電。而DNA物質只需儲存在陰涼、乾燥的地方就可以,基本不需要額外的人工維護。就算需要把DNA冷凍起來,消耗的資源和能源也幾乎可以忽略不計。
此外,最重要的一點就是,儲存時間非常久。現在高密度的儲存器都會隨著時間推移而衰減,能儲存時間最長的工具是磁帶,其壽命也就50年,其他的儲存器壽命更短。比較而言,DNA則保質期就以百年計算了,如果將其冷凍起來,能儲存幾千甚至上萬年。
看來人類文明的拯救方案有了,但DNA儲存到底是如何做到的呢?
眾所周知,DNA由四種含氮鹼基——A、T、C和G互補配對構成,科學家將腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)分別賦予二進位制值(A和C=0 ,G和T=1),隨後通過微流體晶片對基因序列進行合成,從而使該序列的位置與相關資料集相匹配。這樣就把這些鹼基對編碼成1和0的組合,就可以用DNA的序列資訊來表達二進位制的語言了。
當每次將二進位制語言寫進DNA序列當中,就可以把“DNA硬碟”放到低溫環境中進行儲存。而需要讀取資料的時候,只用對目標DNA進行測序,將鹼基對還原成二進位制編碼,再完成解碼,就可以還原為我們常見的資料了。
原理是非常簡單,但科學家是如何做到的呢?這就要簡單回顧下DNA儲存技術的發展史了。
DNA儲存是如何一步步發展到現在的?
最先想到這一方法的是一位藝術家Joe Davis,他在1988年與哈佛研究人員合作,把一個取名為Microvenus(小維納斯)的7*5畫素矩陣的照片,轉化成35個鹼基的DNA序列,插入到大腸桿菌裡,第一次把不屬於自然演化的資訊寫進了在DNA當中。
(Microvenus代表女性和地球)
2010年,美國合成生物學家克雷格•文特爾((Craig Venter)帶領研究團隊化學合成了整個支原體基因組DNA,取名為“辛西婭(Synthia)”,並以“自娛自樂”的方式將課題研究者的名字、研究所網址和愛爾蘭詩人詹姆斯的詩句等資訊編碼進新合成的DNA中。
2011年,哈佛大學的合成生物學家喬治·丘奇(George Church)和加州大學的瑟裡·庫蘇里(Sriram Kosuri)領導的團隊以及約翰•霍普金斯大學的基因組專家高原(Yuan Gao)首次進行了概念證明性實驗。團隊使用短DNA片段編碼了一本丘奇的659KB資料的書。
2013年,歐洲生物資訊研究所(EBI)的尼克•高德曼(Nick Goldman)和他的研究團隊也成功地將包括莎士比亞十四行詩和馬丁•路德•金“我有一個夢想”的演講片段、一篇沃森和克里克DNA雙螺旋論文副本等5個檔案編寫進了DNA片段裡當中。739KB資料成為當時最大的DNA儲存檔案。
2016年,微軟和華盛頓大學又利用DNA儲存技術完成了約200MB資料的儲存,成為DNA資訊儲存技術的一個飛躍。
2017年7月,《自然》雜誌發表了哈佛大學醫學院的賽斯•希普曼(Seth Shipman)和喬治·丘奇合作的一項活體DNA儲存的研究。他們把一部130年前的黑白電影《奔跑中的馬》存在了大腸桿菌的DNA上。雖然大腸桿菌體內有一段“奇怪的DNA”,不僅能夠正常生存,還可以正常遺傳,每次繁衍都是一次資料複製。而且儲存在基因組中的電影,在每一代大腸桿菌中也都完整無缺地儲存下來了。
但因為細胞的複製、分裂以及死亡,會造成資訊出錯的風險,未來資料安全,大多數情況下儲存資訊的DNA都是以DNA乾粉的形式存在,活體細胞儲存的研究轉向合成DNA儲存。
同一年,哥倫比亞大學和紐約基因組中心在《科學》雜誌發表了一項稱為“DNA噴泉”演算法高效的DNA儲存策略。這項技術展示了最大化利用DNA的儲存潛力,成功將海量資訊壓縮至DNA的四個鹼基,即為每個DNA編碼1.6位元(bits)的資料,比之前多儲存了60%的資訊,逼近理論極限(1.8位元)。該方法能夠將215PB資料儲存在一克DNA中,相當於2.2億部電影。
2018年,愛爾蘭沃特福德理工學院(WIT)研究人員開發出一種新型DNA儲存方法,可在1克大腸桿菌DNA中儲存1ZB的資料。
2019年,丘奇團隊又在《科學》期刊上發表了一項實驗結果。他們將丘奇的一本大約5.34萬個單詞《再生:合成生物學將如何改變未來的自然和自己》的書,以及11張圖片和一段Java程式,編碼進不到億萬分之一克的DNA微晶片,再成功利用 DNA 測序來閱讀這本書。
這些科研的快速發展也意味著DNA合成技術(資料寫入)和DNA測序技術(資料讀取)正走向成熟。但同時,DNA編碼過程仍然存在著儲存/讀取速度和成本等問題,DNA儲存離商業化還在路上。
DNA儲存商業化的問題與進展
在實驗室裡,看起來DNA儲存並不複雜,但是在商業化上面,仍然還面臨著一些問題。
首先,儲存和讀取的速度都很慢。DNA儲存裝置的訪問速度很慢,存取也很費時間。相比較磁碟儲存的電磁訊號,DNA合成卻要依賴於一系列化學反應。用磁碟寫入200MB資料,不用1秒,用DNA合成差不多得需要3周的時間。
其次,DNA介質不能覆蓋和重寫。在DNA裡,一旦把資訊存進去,一般來說不能修改。想讀取這個文件,需要把全部資訊完全測序出來再轉碼。
第三,資料儲存的準確性有待提高。目前DNA測序時的重複讀取導致讀錯概率較大。
第四,隨機讀寫困難。目前DNA合成技術無法一次性產生較長的DNA分子,只能合成眾多的短片段。這使得在眾多DNA小片段組成的混合物當中,快速調取特定資料存在困難。
最後,也是最重要的,DNA儲存成本太高了。比如目前DNA儲存200MB資料,需要耗資80萬美元,而用電子裝置,成本連1美元都不到。
但正如上面所說,如果放到更長的時間尺度上和資料儲存空間壓力下,DNA具有的大儲存密度、高節能環保、超長穩定性的獨特優勢就顯現出來了。只要隨著儲存和讀取技術的發展,DNA編碼和測序的效率提升,成本大幅下降,DNA儲存離商業化應用也就不遠了。
那麼,現在在商業化上有哪些進展呢?
在2015年,微軟公司和華盛頓大學合作發表了一個成果,採用定點讀取資訊,也就是給一個長長的DNA鏈里加入一些追蹤標記。這些類似索引機制的標記,可以不用每次等測序完整DNA長鏈,就能選取合適的標記進行讀取。
2018年,讀取技術又實現突破,微軟研發了“奈米孔”讀取技術,讓 DNA 介質列能擠過一個很小的奈米孔而讀取其中每個 DNA 鹼基。這一技術讓大大縮小了讀取裝置的空間開支,一個手掌大小的 USB 裝置就能進行讀取,但讀取速度在每秒幾KB左右,可以說仍然相當慢。
2019年3月,微軟團隊在《自然》雜誌發表一項新的進展,他們開發了世界上第一個自動DNA儲存介質。相比較於手動操作進行DNA的合成和測序,能夠自動化方式進行DNA編解碼才是未來商業化的出路。
另外,關於DNA儲存和讀取時長以及成本的問題,一家2016年成立的美國初創公司Catalog也正試圖嘗試解決。
去年,Catalog將一共16G的維基百科英文版文字儲存在了一個DNA分子上。他們使用了一臺DNA書寫器裝置,以4Mbps的速度在DNA中記錄這些資料。這意味著在一天內可以記錄125GB,大約相當於高階手機可以儲存的容量。這一速度已經是之前研究所儲存速度的三倍。
目前,Catalog使用了由20到30個鹼基對長預製合成DNA鏈,通過酶巢狀在一起,可以儲存更多的資料。這些片段的排列就像英語使用26個字母一樣,理論上可以創造出無數的組合。據Catalog估計,未來進行1MB資料DNA儲存成本將不到0.001美分。
當然,如果未來這家創業公司真的能夠將成本大幅降下來,那麼確實有可能為DNA資料儲存的商業化鋪平道路。
在2019年,《科學美國人》與世界經濟論壇聯合釋出的當年全球十大新興技術中, DNA資料儲存技術名列其中。
可以預見,磁儲存和光儲存方式在未來一段時間仍將佔據資料儲存方式的主流。不過,即使我們不會出現地球末日這種極端情況,因為近幾年資料激增,人類也正面臨資料儲存空間不足的嚴峻問題。同時,資料儲存需求激增,帶來的是矽晶片使用量的激增,以及由此引發的環境汙染問題、水資源和能源消耗等問題。
DNA儲存技術的實現,一定程度將緩解傳統儲存的容量問題,並大幅減少電子元件和能源的消耗。
當然,在存取技術上和成本控制上,DNA儲存為代表的碳基儲存方式還有很長的道路要走,但隨著商業化的進展,其規模普及速度也會加快。從資料儲存的歷史來看,儲存媒介的變化是一個不斷變化且加速的過程,DNA儲存也應該成為我國關注和研究的技術方向。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2687200/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料儲存(1):從資料儲存看人類文明-資料儲存器發展歷程
- 儲存新圖譜:DNA儲存的邊界與天地
- 「畢昇一號」DNA活字儲存噴墨印表機來了,低成本、高效率、全自動的DNA儲存
- 俄羅斯的 IT 危機:儲存快用完了
- 讓DNA說Hello!微軟成功研製用DNA儲存讀取資料的全自動系統微軟
- Esxi 6.7基於已有資料儲存配置虛擬機器(Linux類)間共享儲存(非RDM)虛擬機Linux
- 資料儲存--檔案儲存
- 戴爾易安信 PowerStore |克服資料中心核心儲存“症狀”的“一劑良方”
- Android中的資料儲存之檔案儲存Android
- 聚焦資料時代新儲存需求,浪潮儲存的新儲存之道
- 【儲存資料恢復】NetApp儲存誤刪資料夾的資料恢復案例資料恢復APP
- mysql 資料儲存檔案及6類日誌MySql
- 資料的儲存區域
- 有效儲存資料的方法
- 計算機儲存器的分類及其特性計算機
- TiDB資料儲存TiDB
- 資料儲存:CoreData
- iOS 資料儲存iOS
- iOS開發資料儲存篇—iOS中的幾種資料儲存方式iOS
- 【儲存資料恢復】NetApp儲存誤刪除的資料恢復案例資料恢復APP
- C 儲存類
- Flutter持久化儲存之資料庫儲存Flutter持久化資料庫
- 資料儲存(歸檔解檔,沙河儲存)
- Android的3種資料儲存技術(一)File儲存Android
- 【儲存資料恢復】EqualLogic PS系列儲存磁碟故障的資料恢復案例資料恢復
- MySQL儲存毫秒資料的方法MySql
- 伺服器資料的儲存伺服器
- 【儲存資料恢復】esx vmfs的互斥導致儲存資料丟失的資料恢復案例資料恢復
- 儲存資料之SharedPreference
- SettingsProvider資料儲存位置IDE
- Flutter 資料儲存 SharedPreferencesFlutter
- SRAM資料儲存原理
- 用SharedPreference儲存資料
- k8s之資料儲存-配置儲存K8S
- Swift實踐:使用CoreData儲存多種資料類的通訊錄Swift
- 【儲存資料恢復】HP EVA儲存誤刪除VDISK的資料恢復案例資料恢復
- 資料儲存-領存高速海量資料記錄儲存模組產品介紹
- 計算機硬體有兩種儲存資料的方式計算機