[解密] DNA儲存技術究竟牛在哪裡?
針對未來儲存密度市場,前期在文章“50TB ExaDrive SSD投入商用”和“HP憶阻器記憶體和IBM原子磁碟”中,分別介紹了大容量SSD、憶阻SCM和原子儲存技術,但今天給大家普及的是另外一種前衛技術——DNA儲存技。
DNA儲存則能提供極大密度,是未來大容量儲存較理想的介質,也是下一代冷儲存的替代品。從原理上來講,DNA儲存是通過DNA中G、T、A和C 4種鹼基代表二進位制資料(0、1、2和3),理論上1克DNA可存455EB資料。DNA儲存的讀取技術則是採用DNA測序技術實現,DNA測序技術發展迅速,效能每次可達960Gb,成本也很低,價效比已經接近商用;目前的難題在於DNA儲存的寫效能,當前寫效能每天只能達到Mb量級,極高寫成本使得離商用還有很長的路要走。
由於DNA儲存還有很多技術難題需要攻克,DNA儲存目前還是原型概念驗證階段,主要是學術研究機構在從事,至少還需要5年時間才可能有DNA儲存商業產品應用,但從長期投入來看,微軟等廠商覺得是很有投入價值的,這很可能是未來儲存介質市場的切入點,DNA晶片技術、晶片電路設計和測序合成技術結合將可能是繼原子儲存、SCM介質之後的下一個儲存技術熱點。
DNA儲存是將二進位制檔案通過編碼對映成DNA裡A、T、G和C鹼基序列,按序列順序通過人工合成技術形成長鏈DNA來儲存資料的方法成為DNA儲存技術,資料寫入即人工合成DNA,資料讀取即DNA測序,資料拷貝即DNA複製,利用DNA中鹼基序列編碼儲存二進位制資料具體例項如下所示。
DNA儲存從架構上講,主要包括類似於儲存控制器的編解碼器、資料讀取寫入裝置和資料儲存裝置,從技術成熟度上講,DNA技術可以支援開發DNA儲存原型,但在成本和自動化等方面還面臨技術的挑戰。
編解碼器(儲存控制器)完成二進位制轉換為DNA鹼基序列(鹼基對A,T,G和C可對應0,1,2和3),對誤碼進行誤碼糾正、檔案索引的方法對效率影響大。
寫入裝置(寫磁頭)通過DNA合成含有A、T、G和C的DNA資料鏈儲存資料,人工合成DNA。當前DNA合成技術已經可以按程式任意組合在DNA鏈條上加入鹼基,使得DNA寫入成為可能。
存放裝置(磁碟櫃)實現DNA存放,單個細胞核23對染色體含30億對鹼基可存12Gb資料,1克DNA可儲存EB級資料。
讀取裝置(讀磁頭) 實現DNA儲存的讀取,基於DNA測序(Sequencing)技術,目前最常用的測序方法是桑格測序法(Sangar)。
Sanger測序的原理是將測序DNA進行大量複製(PCR),將DNA分裝不同試管中,分別加入有剪下作用的染過色的雙脫氧核苷酸ddNTP,反覆PCR迴圈讓DNA複製,當遇到ddNTP複製斷裂,形成長短不一的DNA單鏈,加電出現電泳現象,短鏈DNA遊速快,長鏈遊速慢,形成長短排序,鐳射照相,形成排序光譜。
DNA儲存優勢是顯然意見的,密度理論上1克DNA可儲存455EB資料量,DNA儲存時間也很長,在乾冷條件下,可保持100萬年以上,常溫下可保持2000年以上,常溫儲存能耗很低,基本不需要電力。但是技術挑戰也與之並存,儲存密度受到編碼效率、備份數量、分類索引等方面的制約,通常比理論密度低。
DNA儲存編糾錯挑戰: 編碼糾錯的原則是避免重複,重複導致讀錯概率大,最常用的方法是加入驗證資訊。在解決誤碼問題上,微軟採用了三進位制編碼原理,在4個鹼基中,其中一個鹼基用作前一位指示,後三位用作0,1,2編碼。
DNA儲存編索引挑戰: 目前比較流行的一種DNA儲存索引方法叫KV方式,針對檔案,以Key-Value的方法形成Key值,將Key值形成檔案頭DNA索引和地址,再將檔案內容和索引合成DNA。
DNA儲存寫入合成挑戰: DNA合成過程是控制4種鹼基分別加入DNA合成片段中,將片段連結合成較大的片段的過程。DNA合成依然較困難,小片段合成可以在實驗室,但是大規模合成需要專門基因合成服務公司才能完成(如GeneArt,Twist Biosicence)。
DNA儲存拷貝技術: DNA複製通常採用成熟的PCR方法,該方法在1983年發明。大致過程是先將DNA雙鏈加熱分開,加入聚合酶、DNA引物和鹼基,DNA單鏈開始產生雙鏈實現DNA的複製。
關於DNA儲存的技術研究和應用前景十分廣闊,當前主流方向聚焦在密度、儲存時間、低能耗等優點,DNA儲存的存取技術(合成和測序技術)得到了快速發展,如果能很好地解決成本效能問題,那麼在未來,會極大限度加速DNA儲存取代現有儲存的可能性和程式。
DNA儲存在歸檔場景具備佔地小、能耗低、密度大的特點,美國國家圖書館、維基百科、Google有意願將資料備份在DNA儲存上;在軍事用途應用中,可以通過人體攜帶DNA資料,有了DNA儲存技術,我們人體就是“雲硬碟”。在個人應用中,未來個人可以隨身攜帶超大容量的DNA USB資料盤。
但歸根結底,DNA儲存商用很大程度依賴DNA合成技術和測序技術的發展,當前測序技術發展較快如Pacbio、Illumina等公司,DNA合成技術發展慢,需要較大的理論和技術突破才可能,在另一方面,這也可能導致未來商用的不確定性。
DNA儲存技術如其他技術發展,DNA儲存技術的發展也離不開所處的生態環境,目前值得關注的生態圈領域主要包括,DNA晶片、DNA合成技術、DNA測序等。
DNA晶片主要包括Affymetrix、Illumina和Affymetrix公司,Affymetrix利用基因晶片,通過原位合成法,大規模生產DNA探針。Illumina和Affymetrix合作開發DNA探針晶片由於測序。DNA合成包括美國IDT美國、德國GeneART、中國華大基因和提供DNA合成服務的Twist公司和微軟合作。
DNA儲存至今已有很多成功嘗試,哈弗大學George Church 在2012年首次650KB資料寫進DNA儲存;EMBL歐洲生物資訊實驗室2013年將20MB資料寫進DNA儲存;這些都是科研機構的嘗試,但在2016年7月,微軟研究院和華盛頓大學2016年釋出DNA儲存原型論文,並在同年7月將200MB的資料放入一段DNA中,引發極大關注,微軟釋出DNA儲存原型,並決定推進其商用。
這次試驗打破之前20MB的最高紀錄,釋出了新的Error-Correcting Code,適合DNA讀寫錯誤的糾正,同時對DNA資料可以隨機讀取。試驗的成功促使微軟加速推進DNA儲存商業應用的研究。
>>>推薦閱讀
溫馨提示:
請搜尋“ICT_Architect”或“掃一掃”二維碼關注公眾號,點選原文連結獲取更多技術資料。
點選原文連結獲取技術資料
相關文章
- 【技術解密】SequoiaDB分散式儲存原理解密分散式
- NewSQL 究竟新在哪裡?SQL
- 儲存過程不好在哪裡?儲存過程
- windows10桌面桌布的儲存地址在哪裡_win10桌面桌布的儲存位置在哪裡WindowsWin10
- 前端儲存技術前端
- cad自動儲存的檔案在哪裡 cad檔案一般儲存在哪裡
- 儲存新圖譜:DNA儲存的邊界與天地
- 下一個五年,儲存的生意在哪裡?
- openGauss儲存技術(一)——行儲存引擎儲存引擎
- 使用雲桌面的技術優勢在哪裡
- LikeLib公鏈技術領先在哪裡?
- 七牛雲物件儲存物件
- win10系統下截圖儲存位置在哪裡Win10
- 雲端儲存的技術原理
- InnoDB儲存引擎——Checkpoint技術儲存引擎
- 雲端儲存技術體系
- CUUG筆記 儲存技術筆記
- 分散式儲存技術概念分散式
- 雲端計算儲存技術
- 用DNA儲存資料成為現實
- wps自動儲存時間設定在哪裡 WPS如何設定自動儲存
- iThoughtsX for mac思維導圖工具究竟好在哪裡?Mac
- ThinkPHP之七牛雲儲存PHP
- 七牛儲存使用筆記筆記
- 不破壞原加密儲存的儲存解密(轉)加密解密
- 前端儲存技術Cookie,Storage,IndexedDB前端CookieIndex
- 浪潮儲存基於智慧運維技術,加速儲存自治運維
- 三層儲存技術保障雲服務的儲存安全
- 雲端儲存究竟是什麼?
- 解密encrypt的儲存過程解密儲存過程
- 解密SQL SERVER儲存過程解密SQLServer儲存過程
- 不同體系分散式儲存技術的技術特性分散式
- Docker:技術和商業的結合點在哪裡?Docker
- 技術引路:機器學習仍大有可為,但方向在哪裡?機器學習
- “區塊鏈錢包”的技術顛覆在哪裡?區塊鏈
- 前端工程師的技術進階點在哪裡?前端工程師
- DNA硬碟成大資料福音:1克DNA可儲存700TB的資料硬碟大資料
- 服裝ERP軟體體系究竟差在哪裡?